Железо и инфраструктура 25 просмотров

VRAM

Video Random Access Memory

VRAM — видеопамять GPU, определяющая максимальный размер ML-модели, которую можно загрузить и обработать. Основной лимитирующий фактор при работе с большими языковыми моделями.

Что такое VRAM

VRAM (Video Random Access Memory) — выделенная память на видеокарте, используемая для хранения весов модели, активаций, градиентов и KV-cache во время обучения и инференса.

Почему VRAM важна

VRAM — главный ограничивающий фактор при работе с ML-моделями. Если модель не помещается в VRAM, она не запустится (без специальных техник вроде offloading).

Расчёт потребления VRAM

Инференс

VRAM = параметры × байт_на_параметр + KV-cache + overhead

Пример для LLaMA 3 8B в FP16:
= 8B × 2 байта + ~2 GB (KV-cache) + ~1 GB
≈ 19 GB

Обучение (полное)

VRAM ≈ параметры × 18 байт
(веса FP32 + градиенты + состояние оптимизатора Adam)

Пример для 7B модели:
= 7B × 18 ≈ 126 GB → нужно несколько GPU

Типы видеопамяти

Тип Bandwidth Применение
HBM2e 1.6 ТБ/с A100
HBM3 2.0 ТБ/с H100
HBM3e 4.8 ТБ/с H200, B200
GDDR6X 1.0 ТБ/с RTX 4090

Способы уменьшения потребления VRAM

  1. Квантизация — INT8, INT4, GPTQ, AWQ
  2. LoRA/QLoRA — обучение с замороженными весами
  3. Gradient checkpointing — пересчёт вместо хранения
  4. DeepSpeed ZeRO — распределение по GPU
  5. CPU offloading — выгрузка части данных в RAM

Связанные термины

Является частью
Включает
Использует

Попробуйте на практике

Арендуйте GPU и запустите ML-модели в Intelion Cloud

Начать работу