Железо и инфраструктура 25 просмотров

VRAM

Video Random Access Memory

VRAM — видеопамять GPU, определяющая максимальный размер ML-модели, которую можно загрузить и обработать. Основной лимитирующий фактор при работе с большими языковыми моделями.

Содержание

Что такое VRAM
Почему VRAM важна
Расчёт потребления VRAM
Типы видеопамяти
Способы уменьшения потребления VRAM

Что такое VRAM

VRAM (Video Random Access Memory) — выделенная память на видеокарте, используемая для хранения весов модели, активаций, градиентов и KV-cache во время обучения и инференса.

Почему VRAM важна

VRAM — главный ограничивающий фактор при работе с ML-моделями. Если модель не помещается в VRAM, она не запустится (без специальных техник вроде offloading).

Расчёт потребления VRAM

Инференс

VRAM = параметры × байт_на_параметр + KV-cache + overhead

Пример для LLaMA 3 8B в FP16:
= 8B × 2 байта + ~2 GB (KV-cache) + ~1 GB
≈ 19 GB

Обучение (полное)

VRAM ≈ параметры × 18 байт
(веса FP32 + градиенты + состояние оптимизатора Adam)

Пример для 7B модели:
= 7B × 18 ≈ 126 GB → нужно несколько GPU

Типы видеопамяти

Тип	Bandwidth	Применение
HBM2e	1.6 ТБ/с	A100
HBM3	2.0 ТБ/с	H100
HBM3e	4.8 ТБ/с	H200, B200
GDDR6X	1.0 ТБ/с	RTX 4090

Способы уменьшения потребления VRAM

Квантизация — INT8, INT4, GPTQ, AWQ
LoRA/QLoRA — обучение с замороженными весами
Gradient checkpointing — пересчёт вместо хранения
DeepSpeed ZeRO — распределение по GPU
CPU offloading — выгрузка части данных в RAM

Связанные термины

Является частью

GPU

Включает

HBM

Использует

CUDA

Улучшается

PEFT Квантизация Gradient Accumulation Gradient Checkpointing

Попробуйте на практике

Арендуйте GPU и запустите ML-модели в Intelion Cloud

Начать работу