Новости AI

6125

6 августа 2025

Сегодня невозможно представить крупный технологический проект без использования нейросетей, будь то генерация текстов, чат-боты, интеллектуальные помощники или системы рекомендаций. Но вместе с ростом сложности моделей возрастают и требования к вычислительным ресурсам. Важнейший аспект здесь — точный расчет VRAM (видеопамяти GPU) для запуска LLM и других моделей машинного обучения.

В этой статье подробно разберём, как правильно рассчитать необходимый объём VRAM для популярных моделей, как оптимизировать её использование, и когда выгоднее арендовать сервер с GPU вместо покупки собственного железа.

Почему важно правильно рассчитывать VRAM?

Каждый, кто сталкивался с запуском моделей вроде GPT-4, LLaMA, Mistral или Claude, прекрасно знает проблему переполнения памяти GPU. Вы запускаете модель, и вместо ожидаемого результата получаете ошибку:

RuntimeError: CUDA out of memory.

Правильный расчет VRAM важен по нескольким причинам:

  • Эффективность затрат: если вы покупаете или арендуете серверы, правильный расчёт позволяет выбрать оптимальное железо, избегая переплат.
  • Производительность модели: нехватка памяти приводит к нестабильности работы и низкой скорости генерации.
  • Экономия времени на эксперименты: избегаете ненужных проблем при запуске моделей и можете сосредоточиться на задачах машинного обучения.

Давайте перейдём к практике.

VRAM LLM calculator

Расчёт VRAM основывается на следующей общей формуле:

VRAM = Количество параметров модели × Размер типа данных × Дополнительные множители

Что означают эти переменные?

  • Количество параметров — главный показатель размера модели (например, 7B, 13B, 70B).
  • Размер типа данных — сколько памяти занимает один параметр (float32 — 4 байта, float16 — 2 байта, INT8 — 1 байт, INT4 — 0.5 байта).
  • Дополнительные множители — учитывают токены контекста, промежуточные вычисления, активации и другие технические нюансы.

Пример расчета для популярной модели LLaMA 7B (7 миллиардов параметров):

  • Параметры модели: 7 миллиардов
  • Тип данных: FP16 (float16 — 2 байта на параметр)
  • Дополнительный множитель (активации и буфер токенов): около 1.2–1.5 (с запасом)

Считаем:

7 000 000 000 × 2 байта × 1.5 = 21 000 000 000 байт (около 21 GB)

Таким образом, для комфортного запуска модели LLaMA 7B с FP16 нужно минимум 24 GB VRAM.

Практические расчёты для разных моделей и типов данных

Ниже — таблица с требованиями VRAM для популярных LLM при разных уровнях квантизации. Значения указаны для инференса (запуск модели для генерации текста). Для обучения и fine-tuning требуется в 2–4 раза больше памяти.

Модель Параметры FP16 INT8 (8-bit) INT4 (4-bit)
Gemma 3 1B ~3 ГБ ~2 ГБ ~1 ГБ
Llama 3.2 3B ~7 ГБ ~4 ГБ ~3 ГБ
Qwen 2.5 7B ~15 ГБ ~8 ГБ ~5 ГБ
Llama 3.1 8B ~17 ГБ ~9 ГБ ~6 ГБ
Gemma 3 12B ~25 ГБ ~13 ГБ ~8 ГБ
Qwen 2.5 14B ~29 ГБ ~15 ГБ ~9 ГБ
Mistral Small 24B ~49 ГБ ~25 ГБ ~14 ГБ
Gemma 3 27B ~55 ГБ ~28 ГБ ~16 ГБ
Qwen 2.5 32B ~65 ГБ ~33 ГБ ~18 ГБ
DeepSeek-R1 (distill) 32B ~65 ГБ ~33 ГБ ~18 ГБ
Qwen 2.5 72B ~145 ГБ ~73 ГБ ~38 ГБ
Llama 3.1 / 3.3 70B ~141 ГБ ~71 ГБ ~37 ГБ
Mistral Large 123B ~248 ГБ ~124 ГБ ~64 ГБ
DeepSeek-V3 (MoE) 671B* ~200 ГБ* ~100 ГБ* ~55 ГБ*

* DeepSeek-V3 — модель с архитектурой MoE (Mixture of Experts): общий размер 671B параметров, но при инференсе активны только ~37B. Указана память для активных параметров + роутер.

Квантизация существенно снижает потребность в видеопамяти. Например, модель Llama 3.1 70B в FP16 требует ~141 ГБ (2× A100 80GB), а в INT4 — около 37 ГБ, что вмещается на одну A100 40GB или RTX 4090 48GB.

Сколько видеопамяти нужно: какую модель можно запустить на вашей видеокарте

Видеокарта VRAM Макс. модель (FP16) Макс. модель (INT8) Макс. модель (INT4)
RTX 3060 12 ГБ Gemma 3 1B, Llama 3.2 3B Qwen 2.5 7B, Llama 3.1 8B Gemma 3 12B, Qwen 2.5 14B
RTX 3070 8 ГБ Gemma 3 1B, Llama 3.2 3B Qwen 2.5 7B Llama 3.1 8B
RTX 3080 10 ГБ Gemma 3 1B, Llama 3.2 3B Qwen 2.5 7B, Llama 3.1 8B Gemma 3 12B
RTX 3090 24 ГБ Qwen 2.5 7B, Llama 3.1 8B Gemma 3 12B, Qwen 2.5 14B Qwen 2.5 32B, DeepSeek-R1 32B
RTX 4060 8 ГБ Gemma 3 1B, Llama 3.2 3B Qwen 2.5 7B Llama 3.1 8B
RTX 4070 Ti 16 ГБ Qwen 2.5 7B Llama 3.1 8B, Gemma 3 12B Qwen 2.5 14B
RTX 4080 16 ГБ Qwen 2.5 7B Llama 3.1 8B, Gemma 3 12B Qwen 2.5 14B
RTX 4090 24 ГБ Qwen 2.5 7B, Llama 3.1 8B Gemma 3 12B, Qwen 2.5 14B Qwen 2.5 32B, DeepSeek-R1 32B
RTX 4090 48GB 48 ГБ Gemma 3 27B, Qwen 2.5 14B Qwen 2.5 32B, DeepSeek-R1 32B Llama 3.1 70B, Qwen 2.5 72B
A100 40GB 40 ГБ Qwen 2.5 14B Qwen 2.5 32B, DeepSeek-R1 32B Llama 3.1 70B
A100 80GB 80 ГБ Qwen 2.5 32B, DeepSeek-R1 32B Llama 3.1 70B, Qwen 2.5 72B Mistral Large 123B
2× A100 80GB 160 ГБ Llama 3.1 70B, Qwen 2.5 72B Mistral Large 123B DeepSeek-V3 671B (MoE)
H100 80GB 80 ГБ Qwen 2.5 32B, DeepSeek-R1 32B Llama 3.1 70B, Qwen 2.5 72B Mistral Large 123B
4× H100 80GB 320 ГБ Mistral Large 123B, DeepSeek-V3 (MoE) DeepSeek-V3 671B (MoE)

Видеокарты с несколькими чипами: A16, K80 и другие

Некоторые серверные видеокарты NVIDIA содержат несколько GPU-чипов на одной плате. Это важно понимать при расчёте VRAM, потому что память таких карт не суммируется для одной модели.

Видеокарта Чипов VRAM на чип VRAM всего Архитектура
NVIDIA K80 2× GK210 12 ГБ 24 ГБ Kepler (2014)
NVIDIA K40m 1× GK110B 12 ГБ 12 ГБ Kepler (2013)
NVIDIA A16 4× A2 16 ГБ 64 ГБ Ampere (2021)
NVIDIA A10G 1× GA102 24 ГБ 24 ГБ Ampere (2021)
NVIDIA A30 1× GA100 24 ГБ 24 ГБ Ampere (2021)

Как это работает на практике?

Операционная система видит каждый чип как отдельный GPU. Например, K80 отображается как два устройства — cuda:0 и cuda:1 по 12 ГБ каждое. A16 — как четыре устройства по 16 ГБ. Модель, которая требует 20 ГБ VRAM, не запустится на K80 (12 ГБ на чип), несмотря на то что карта формально имеет 24 ГБ.

А как же мост между чипами — разве он не даёт быстрый обмен данных?

Распространённое заблуждение: раз чипы стоят на одной плате, значит, между ними быстрая связь вроде NVLink или SLI. На практике это не так:

  • K80: чипы соединены через PLX PCIe switch (не SLI — SLI это технология для игровых карт). Скорость обмена — PCIe Gen3, ~12 ГБ/с.
  • A16: чипы тоже соединены через PCIe switch, не через NVLink. NVLink есть только у старших серверных GPU (A100, H100).

Для сравнения пропускной способности связи между чипами:

Связь Bandwidth Overhead при Tensor Parallelism
NVLink (A100↔A100) 600 ГБ/с ~5%, минимальный
PCIe Gen4 (чипы A16) ~32 ГБ/с ~40–60%
PCIe Gen3 (чипы K80) ~12 ГБ/с TP нецелесообразен

При Tensor Parallelism чипы обмениваются данными на каждом слое модели. Если связь медленная, GPU большую часть времени простаивают в ожидании данных. Второй чип K80 или A16 может дать прирост всего 20–40% вместо ожидаемых 100%.

Насколько хорошо LLM работают на таких картах?

  • NVIDIA K80 — практически непригодна для современных LLM. Архитектура Kepler (Compute Capability 3.7) не поддерживается актуальными версиями PyTorch (требуется CC 5.0+), vLLM и большинством фреймворков для инференса. Даже если удастся запустить модель на старой версии ПО, производительность будет крайне низкой: нет Tensor Cores, пропускная способность памяти всего 240 ГБ/с на чип.
  • NVIDIA A16 — предназначена для виртуальных рабочих столов (VDI), а не для ML. Каждый из четырёх чипов A2 имеет всего 1280 CUDA-ядер и 40 Tensor Cores — это в 5 раз меньше, чем у A100. На каждом чипе (16 ГБ) можно запустить модель до 7B в INT4, но скорость генерации будет в 3–5 раз ниже, чем на RTX 3090 или A10.
  • Вывод: для запуска LLM лучше выбирать одночиповые карты — A100, H100, A10, RTX 3090/4090. Многочиповые карты вроде K80 и A16 могут дешёво стоить на вторичном рынке или в облаках, но их реальная производительность для LLM значительно ниже ожидаемой.

Если вы видите дешёвое предложение с K80 или A16 — помните, что 24 ГБ на K80 ≠ 24 ГБ на RTX 3090. Это два разных мира по производительности и совместимости.

Методы оптимизации VRAM для запуска LLM

Кроме квантизации есть и другие подходы, позволяющие сократить использование памяти GPU:

  • Градиентный checkpointing (Gradient checkpoint) — позволяет экономить VRAM при обучении моделей за счет повторного вычисления некоторых промежуточных состояний вместо их хранения.
  • LoRA (Low Rank Adaptation) — техника дообучения, которая снижает расход памяти, позволяя обучать модели на бюджетных GPU.
  • Параллелизм моделей (Model parallelism) — распределение модели на несколько GPU, если модель не влезает в память одного устройства.

Эти методы активно используются в реальных проектах Data Science, где задачи машинного обучения связаны с ограниченными ресурсами.

Практическое применение: аренда GPU против покупки

Теперь о бизнесе. Для многих стартапов, исследователей и разработчиков с pet-проектами в области Data Science покупка собственного GPU-сервера нерентабельна.

Покупка своего GPU:

  • Высокий стартовый капитал
  • Расходы на электричество и охлаждение
  • Необходимость постоянного обслуживания

Аренда GPU для машинного обучения:

  • Низкие начальные вложения
  • Возможность почасовой оплаты — платите только за использование
  • Легкое масштабирование — можно выбрать сервер под конкретные задачи и эксперименты

Если вы хотите запустить нейросеть на несколько часов или дней, аренда GPU облачных мощностей всегда выгоднее.

Полезные инструменты и калькуляторы для расчета VRAM

Python-скрипты для автоматического расчета VRAM — доступны на GitHub и позволяют быстро получить расчёт.

Онлайн-калькуляторы VRAM — помогают быстро проверить, сколько видеопамяти нужно под конкретную модель.

Пример Python-скрипта (упрощённый):

# Расчет VRAM для LLaMA 13B FP16
parameters = 13e9
bytes_per_param = 2  # FP16
buffer_multiplier = 1.5
vram_required_gb = parameters * bytes_per_param * buffer_multiplier / (1024 ** 3)
print(f"VRAM required: {vram_required_gb:.2f} GB")

Часто задаваемые вопросы о VRAM для LLM

Сколько VRAM нужно для запуска LLM?

Минимальный объём зависит от размера модели и квантизации. Модели до 7B параметров (Qwen 2.5 7B, Llama 3.1 8B) запускаются на 6–8 ГБ VRAM в INT4-квантизации. Модели 13–14B требуют 9–15 ГБ, а 70B — от 37 ГБ (INT4) до 141 ГБ (FP16). Полная таблица — выше в статье.

Можно ли суммировать VRAM нескольких видеокарт?

Не автоматически. Чтобы распределить модель на несколько GPU, нужен Tensor Parallelism — его поддерживают vLLM, TensorRT-LLM, DeepSpeed. Например, две RTX 3090 (24+24 = 48 ГБ) позволят запустить модель 32B в FP16 через vLLM с параметром tensor-parallel-size=2. Просто вставить вторую видеокарту недостаточно — нужна программная поддержка.

Чем VRAM отличается от RAM для нейросетей?

VRAM — это память видеокарты (GPU), RAM — оперативная память процессора (CPU). Нейросети работают на GPU, поэтому именно VRAM определяет, какую модель можно загрузить. Можно частично выгрузить модель в RAM (CPU offloading), но это замедляет инференс в 10–30 раз, поскольку пропускная способность RAM (~50 ГБ/с) намного ниже, чем у VRAM (~2000 ГБ/с для A100).

Какая квантизация лучше: INT8 или INT4?

INT8 (8-bit) практически не снижает качество генерации и уменьшает потребление VRAM вдвое по сравнению с FP16. INT4 (4-bit) экономит ещё больше памяти, но может заметно ухудшить качество на сложных задачах (математика, код). Рекомендация: используйте INT8 по умолчанию, а INT4 — когда модель не влезает в VRAM даже с INT8.

Сколько VRAM нужно для fine-tuning (дообучения) модели?

Полный fine-tuning требует в 3–4 раза больше VRAM, чем инференс, так как нужно хранить градиенты, состояния оптимизатора и активации. Для модели 7B в FP16 это ~60 ГБ. Однако LoRA (Low-Rank Adaptation) сокращает требования до ~18–24 ГБ, а QLoRA (LoRA + 4-bit квантизация базовой модели) позволяет дообучить 7B-модель на видеокарте с 8 ГБ VRAM.

Можно ли запустить LLM без видеокарты, на CPU?

Да. Инструменты вроде llama.cpp и Ollama поддерживают инференс на CPU с использованием обычной оперативной памяти. Модель 7B в INT4 (~5 ГБ) будет работать на любом ПК с 16 ГБ RAM. Но скорость генерации составит 2–5 токенов/сек вместо 30–80 на GPU. Для экспериментов и тестирования это приемлемо, для продакшна — нет.

Хватит ли 8 ГБ видеопамяти для нейросети?

Да, но с ограничениями. На 8 ГБ VRAM можно запускать модели до 7B параметров в INT4-квантизации (Qwen 2.5 7B, Mistral 7B, Llama 3.1 8B). Для моделей крупнее потребуется видеокарта с большим объёмом памяти или аренда GPU-сервера.

Заключение и рекомендации

Резюмируем:

  • Точный расчет VRAM обязателен для стабильного запуска LLM.
  • Используйте квантизацию и методы оптимизации, чтобы снизить потребности в GPU.
  • Почасовая аренда GPU серверов идеальна для стартапов, исследователей и pet-проектов, которые хотят экономить время и деньги.

Если вы начинаете свой путь в машинном обучении и хотите экспериментировать без больших затрат, аренда сервера с GPU — ваш выбор.

Интелион Облако предлагает GPU-серверы с оплатой по секундам, гибкими конфигурациями (A100, A10, A5000, RTX 3090) и скидками до 30% в зависимости от срока аренды.

Попробуйте свои модели на практике и убедитесь, что машинное обучение может быть доступным и простым в использовании.

Новости AI

#data science

#LLM

#machine learning

#Видеокарта для LLM