26
13 марта 2026
Как запустить DeepSeek на GPU-сервере: полный гайд
Требования к VRAM, выбор квантизации, настройка vLLM и llama.cpp для DeepSeek-V3, DeepSeek-R1 и их дистиллятов
DeepSeek стал одной из самых обсуждаемых моделей 2025–2026 годов. DeepSeek-V3 с 671 миллиардом параметров показывает результаты на уровне GPT-4o и Claude 3.5 Sonnet, а DeepSeek-R1 — первая open-source модель с полноценным chain-of-thought рассуждением.
Но запустить модель на 671B параметров — это не ollama run deepseek. Нужно правильное железо, правильная квантизация и правильный inference-сервер. В этом гайде разберём всё по шагам.
Семейство моделей DeepSeek
Прежде чем считать VRAM — разберёмся, какие модели существуют.
DeepSeek-V3 (671B)
Основная модель. Архитектура Mixture of Experts (MoE): 671B параметров всего, но при инференсе активны только ~37B. Это делает модель быстрее, чем «плотный» аналог на 671B, но VRAM нужен под все 671B весов.
- Контекст: 128K токенов
- Лицензия: MIT (полностью открытая)
- Основное применение: генерация текста, анализ, код
DeepSeek-R1 (671B)
Модель с chain-of-thought рассуждением. Та же архитектура MoE (671B / 37B active), но обучена с reinforcement learning для поэтапного рассуждения. Генерирует длинные «цепочки мысли» перед финальным ответом.
- Контекст: 128K токенов
- Особенность: ответы длиннее из-за reasoning-блока → больше KV-кеша
- Основное применение: математика, логика, программирование, сложный анализ
Дистилляты DeepSeek-R1
Команда DeepSeek обучила компактные модели на выходах R1 (дистилляция). Они сохраняют часть reasoning-способностей при гораздо меньших требованиях к железу:
| Модель | Параметры | Базовая архитектура | VRAM (FP16) |
|---|---|---|---|
| DeepSeek-R1-Distill-Qwen-1.5B | 1.5B | Qwen2.5-1.5B | ~3 ГБ |
| DeepSeek-R1-Distill-Qwen-7B | 7B | Qwen2.5-7B | ~14 ГБ |
| DeepSeek-R1-Distill-Llama-8B | 8B | Llama-3.1-8B | ~16 ГБ |
| DeepSeek-R1-Distill-Qwen-14B | 14B | Qwen2.5-14B | ~28 ГБ |
| DeepSeek-R1-Distill-Qwen-32B | 32B | Qwen2.5-32B | ~64 ГБ |
| DeepSeek-R1-Distill-Llama-70B | 70B | Llama-3.1-70B | ~140 ГБ |
Требования к VRAM
Главный вопрос: сколько видеопамяти нужно?
Формула
VRAM ≈ Параметры × Байт_на_вес + KV-кеш + Оверхед
Где байт на вес зависит от квантизации:
| Квантизация | Байт/параметр | DeepSeek-V3 (671B) | DeepSeek-R1-Distill-Qwen-32B |
|---|---|---|---|
| FP16 | 2.0 | ~1 342 ГБ | ~64 ГБ |
| INT8 (Q8) | 1.0 | ~671 ГБ | ~32 ГБ |
| Q4_K_M | 0.56 | ~376 ГБ | ~18 ГБ |
| Q4_0 | 0.5 | ~336 ГБ | ~16 ГБ |
| Q2_K | 0.31 | ~208 ГБ | ~10 ГБ |
К этому добавляем 10–20% на KV-кеш (больше при длинном контексте) и ~1–2 ГБ на рантайм.
Практические конфигурации для DeepSeek-V3 / R1 (671B)
| Квантизация | Мин. VRAM | Конфигурация GPU | Примечания |
|---|---|---|---|
| FP16 | ~1 400 ГБ | 8× H100 80GB или 8× A100 80GB | Продакшен, максимальное качество |
| FP8 | ~700 ГБ | 8× H100 80GB | Минимальная потеря качества |
| Q4_K_M | ~400 ГБ | 5× A100 80GB или 8× RTX 3090 24GB | Оптимальный баланс |
| Q4_0 | ~350 ГБ | 4× A100 80GB или 8× RTX 3090 | Чуть хуже качество |
| Q2_K | ~220 ГБ | 3× A100 80GB | Заметная деградация, не рекомендуется |
Важно: DeepSeek-V3/R1 — это MoE-модель. Хотя активны только 37B параметров за один проход, все 671B весов должны быть загружены в VRAM.
Практические конфигурации для дистиллятов
| Модель | Квантизация | VRAM | GPU |
|---|---|---|---|
| R1-Distill-Qwen-7B | Q4_K_M | ~5 ГБ | RTX 4060 8GB, RTX 3060 |
| R1-Distill-Qwen-7B | FP16 | ~14 ГБ | RTX 4080 16GB |
| R1-Distill-Qwen-14B | Q4_K_M | ~9 ГБ | RTX 4060 Ti 16GB, RTX 3090 |
| R1-Distill-Qwen-32B | Q4_K_M | ~18 ГБ | RTX 3090 24GB, RTX 4090 |
| R1-Distill-Qwen-32B | Q8 | ~32 ГБ | 2× RTX 3090 |
| R1-Distill-Llama-70B | Q4_K_M | ~40 ГБ | 2× RTX 3090 24GB |
Какую квантизацию выбрать?
Для DeepSeek рекомендации:
- Q4_K_M — золотой стандарт. Потеря качества 1–2% на большинстве бенчмарков, VRAM в 3.5× меньше FP16
- Q5_K_M — если VRAM позволяет, чуть лучше на задачах рассуждения
- Q8_0 — практически без потерь, но VRAM в 2× больше Q4
- Q2_K — только в крайнем случае. На reasoning-моделях (R1) деградация особенно заметна
- FP8 — для серверов с H100/H200: минимальная потеря качества, нативная поддержка FP8 Tensor Cores
Для reasoning-моделей (DeepSeek-R1) качество квантизации важнее, чем для обычных. Если есть выбор — берите Q5_K_M вместо Q4_K_M.
Запуск через vLLM
vLLM — лучший выбор для продакшен-деплоя DeepSeek. Поддерживает tensor parallelism, continuous batching и PagedAttention.
Установка
pip install vllm
DeepSeek-V3 на 8× H100
vllm serve deepseek-ai/DeepSeek-V3 \
--tensor-parallel-size 8 \
--max-model-len 32768 \
--trust-remote-code \
--dtype auto
DeepSeek-R1 на 8× A100 80GB
vllm serve deepseek-ai/DeepSeek-R1 \
--tensor-parallel-size 8 \
--max-model-len 16384 \
--trust-remote-code \
--dtype auto \
--gpu-memory-utilization 0.95
Дистиллят R1-Qwen-32B на одном RTX 4090
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B \
--quantization awq \
--max-model-len 8192 \
--dtype auto
Ключевые параметры vLLM для DeepSeek
| Параметр | Значение | Зачем |
|---|---|---|
--tensor-parallel-size |
Кол-во GPU | Шардирование модели между GPU |
--max-model-len |
8192–131072 | Максимальная длина контекста. Больше = больше KV-кеша |
--gpu-memory-utilization |
0.90–0.95 | Доля VRAM под модель. 0.95 для выделенного сервера |
--trust-remote-code |
— | Обязательно для DeepSeek (кастомная архитектура) |
--enforce-eager |
— | Отключает CUDA graphs. Помогает при OOM |
Запуск через llama.cpp / Ollama
Для локального запуска или когда VRAM не хватает (CPU offload).
Ollama (самый простой способ)
# Дистиллят 7B — работает даже на ноутбуке
ollama run deepseek-r1:7b
# Дистиллят 32B — нужно 24 ГБ VRAM
ollama run deepseek-r1:32b
# Полный R1 671B — нужно 8× GPU или CPU offload
ollama run deepseek-r1:671b
llama.cpp (максимальный контроль)
Скачайте GGUF-файл с HuggingFace и запустите:
# DeepSeek-V3 Q4_K_M на 4 GPU
./llama-server \
-m DeepSeek-V3-Q4_K_M.gguf \
--n-gpu-layers 99 \
--tensor-split 24,24,24,24 \
-c 8192 \
--host 0.0.0.0 --port 8080
# DeepSeek-R1-Distill-Qwen-32B Q5_K_M на одном RTX 3090
./llama-server \
-m DeepSeek-R1-Distill-Qwen-32B-Q5_K_M.gguf \
--n-gpu-layers 99 \
-c 8192 \
--host 0.0.0.0 --port 8080
Параметры llama.cpp
| Параметр | Значение | Зачем |
|---|---|---|
--n-gpu-layers (-ngl) |
99 | Кол-во слоёв на GPU. 99 = все |
--tensor-split |
24,24,24,24 |
Распределение VRAM по GPU (в ГБ) |
-c |
4096–131072 | Длина контекста |
--mlock |
— | Закрепляет модель в RAM (без swap) |
--flash-attn (-fa) |
— | Включает Flash Attention (экономит VRAM) |
Производительность: чего ожидать
DeepSeek-V3 671B
| Конфигурация | Квант | Prompt (t/s) | Generation (t/s) |
|---|---|---|---|
| 8× H100 SXM (vLLM, FP8) | FP8 | ~2 000 | ~80–100 |
| 8× A100 80GB (vLLM) | FP16 | ~800 | ~40–50 |
| 8× RTX 3090 (llama.cpp) | Q4_K_M | ~200 | ~8–12 |
| 4× RTX 3090 + CPU offload | Q4_K_M | ~50 | ~3–5 |
Дистилляты
| Модель | GPU | Квант | Generation (t/s) |
|---|---|---|---|
| R1-Distill-Qwen-7B | RTX 4060 8GB | Q4_K_M | ~40–50 |
| R1-Distill-Qwen-14B | RTX 3090 24GB | Q4_K_M | ~30–40 |
| R1-Distill-Qwen-32B | RTX 4090 24GB | Q4_K_M | ~20–25 |
| R1-Distill-Qwen-32B | 2× RTX 3090 | Q8 | ~15–20 |
| R1-Distill-Llama-70B | 2× RTX 3090 | Q4_K_M | ~8–12 |
Выбор GPU для DeepSeek
Для полной модели (671B)
Вам нужен серверный GPU или кластер потребительских карт:
| Вариант | GPU | Общий VRAM | Стоимость | Скорость |
|---|---|---|---|---|
| Оптимальный | 8× H100 80GB | 640 ГБ | $$$$$ | Быстрый |
| Бюджетный сервер | 8× A100 80GB | 640 ГБ | $$$$ | Быстрый |
| Бюджетный кластер | 8× RTX 3090 | 192 ГБ | $$ | Медленнее |
| Минимальный | 4× A100 80GB + Q4 | 320 ГБ | $$$ | Средний |
Аренда GPU-сервера с 8× A100 80GB — самый практичный способ попробовать полную модель DeepSeek-V3/R1 без покупки железа за $200K+.
Для дистиллятов
| Бюджет | GPU | Лучший дистиллят |
|---|---|---|
| ~$300 | RTX 4060 8GB | R1-Distill-Qwen-7B (Q4_K_M) |
| ~$400 | RTX 4060 Ti 16GB | R1-Distill-Qwen-14B (Q4_K_M) |
| ~$600 | Б/у RTX 3090 24GB | R1-Distill-Qwen-32B (Q4_K_M) |
| ~$1 800 | RTX 4090 24GB | R1-Distill-Qwen-32B (Q5_K_M) |
| ~$1 200 | 2× б/у RTX 3090 | R1-Distill-Llama-70B (Q4_K_M) |
Для локального использования R1-Distill-Qwen-32B на RTX 3090 — лучший баланс цены и качества reasoning.
Docker-деплой с Open WebUI
Простой способ получить ChatGPT-подобный интерфейс для DeepSeek:
# docker-compose.yml
services:
ollama:
image: ollama/ollama
ports:
- "11434:11434"
volumes:
- ollama_data:/root/.ollama
deploy:
resources:
reservations:
devices:
- driver: nvidia
count: all
capabilities: [gpu]
open-webui:
image: ghcr.io/open-webui/open-webui:main
ports:
- "3000:8080"
environment:
- OLLAMA_BASE_URL=http://ollama:11434
volumes:
- webui_data:/app/backend/data
depends_on:
- ollama
volumes:
ollama_data:
webui_data:
docker compose up -d
# Скачать модель
docker exec -it ollama ollama pull deepseek-r1:32b
Откройте http://localhost:3000 — готово.
Частые проблемы
«Out of Memory» при загрузке
Если модель не помещается:
- Уменьшите
--max-model-len(контекст) — KV-кеш съедает VRAM - Используйте более агрессивную квантизацию (Q4 → Q3)
- Включите
--enforce-eagerв vLLM (отключает CUDA graphs) - В llama.cpp: уменьшите
-nglдля частичного offload на CPU
Медленная генерация
- Убедитесь, что модель полностью на GPU (
-ngl 99в llama.cpp) - Включите Flash Attention (
-faв llama.cpp) - Для vLLM: используйте tensor parallelism вместо pipeline
- Проверьте, что PCIe не является bottleneck (x16, не x4)
DeepSeek-R1 генерирует слишком длинные ответы
R1 склонен к длинным chain-of-thought рассуждениям. Управляйте через:
# В API-вызове
response = client.chat.completions.create(
model="deepseek-r1:32b",
messages=[{"role": "user", "content": "Вопрос"}],
max_tokens=2048, # Ограничить длину ответа
temperature=0.6, # Ниже = короче рассуждения
)
Итог
| Сценарий | Рекомендация |
|---|---|
| Попробовать DeepSeek | Ollama + R1-Distill-Qwen-7B на любой GPU с 8+ ГБ |
| Серьёзная локальная работа | R1-Distill-Qwen-32B на RTX 3090 (Q4_K_M) |
| Продакшен (API) | DeepSeek-V3/R1 полная модель на 8× A100/H100 через vLLM |
| Максимальное качество reasoning | DeepSeek-R1 671B FP8 на 8× H100 |
DeepSeek-V3 и R1 — одни из лучших open-source моделей на рынке. Дистилляты позволяют получить reasoning-способности даже на бюджетном железе. А для полной модели аренда GPU-сервера — самый разумный путь.
Хотите запустить DeepSeek на GPU прямо сейчас? Арендуйте GPU-сервер в облаке Intelion — оплата по минутам, без обязательств.
#GPU
#LLM
#vLLM
#llama.cpp
#inference
#DeepSeek
#VRAM
#квантизация