Железо и инфраструктура
25 просмотров
VRAM
Video Random Access Memory
VRAM — видеопамять GPU, определяющая максимальный размер ML-модели, которую можно загрузить и обработать. Основной лимитирующий фактор при работе с большими языковыми моделями.
Что такое VRAM
VRAM (Video Random Access Memory) — выделенная память на видеокарте, используемая для хранения весов модели, активаций, градиентов и KV-cache во время обучения и инференса.
Почему VRAM важна
VRAM — главный ограничивающий фактор при работе с ML-моделями. Если модель не помещается в VRAM, она не запустится (без специальных техник вроде offloading).
Расчёт потребления VRAM
Инференс
VRAM = параметры × байт_на_параметр + KV-cache + overhead
Пример для LLaMA 3 8B в FP16:
= 8B × 2 байта + ~2 GB (KV-cache) + ~1 GB
≈ 19 GB
Обучение (полное)
VRAM ≈ параметры × 18 байт
(веса FP32 + градиенты + состояние оптимизатора Adam)
Пример для 7B модели:
= 7B × 18 ≈ 126 GB → нужно несколько GPU
Типы видеопамяти
| Тип | Bandwidth | Применение |
|---|---|---|
| HBM2e | 1.6 ТБ/с | A100 |
| HBM3 | 2.0 ТБ/с | H100 |
| HBM3e | 4.8 ТБ/с | H200, B200 |
| GDDR6X | 1.0 ТБ/с | RTX 4090 |
Способы уменьшения потребления VRAM
- Квантизация — INT8, INT4, GPTQ, AWQ
- LoRA/QLoRA — обучение с замороженными весами
- Gradient checkpointing — пересчёт вместо хранения
- DeepSpeed ZeRO — распределение по GPU
- CPU offloading — выгрузка части данных в RAM
Связанные термины
Является частью
Включает
Использует