Гайды

13 марта 2026

Как запустить DeepSeek на GPU-сервере: полный гайд

Требования к VRAM, выбор квантизации, настройка vLLM и llama.cpp для DeepSeek-V3, DeepSeek-R1 и их дистиллятов

Содержание

Семейство моделей DeepSeek
Требования к VRAM
Какую квантизацию выбрать?
Запуск через vLLM
Запуск через llama.cpp / Ollama
Производительность: чего ожидать
Выбор GPU для DeepSeek
Docker-деплой с Open WebUI
Частые проблемы
Итог

DeepSeek стал одной из самых обсуждаемых моделей 2025–2026 годов. DeepSeek-V3 с 671 миллиардом параметров показывает результаты на уровне GPT-4o и Claude 3.5 Sonnet, а DeepSeek-R1 — первая open-source модель с полноценным chain-of-thought рассуждением.

Но запустить модель на 671B параметров — это не ollama run deepseek. Нужно правильное железо, правильная квантизация и правильный inference-сервер. В этом гайде разберём всё по шагам.

Семейство моделей DeepSeek

Прежде чем считать VRAM — разберёмся, какие модели существуют.

DeepSeek-V3 (671B)

Основная модель. Архитектура Mixture of Experts (MoE): 671B параметров всего, но при инференсе активны только ~37B. Это делает модель быстрее, чем «плотный» аналог на 671B, но VRAM нужен под все 671B весов.

Контекст: 128K токенов
Лицензия: MIT (полностью открытая)
Основное применение: генерация текста, анализ, код

DeepSeek-R1 (671B)

Модель с chain-of-thought рассуждением. Та же архитектура MoE (671B / 37B active), но обучена с reinforcement learning для поэтапного рассуждения. Генерирует длинные «цепочки мысли» перед финальным ответом.

Контекст: 128K токенов
Особенность: ответы длиннее из-за reasoning-блока → больше KV-кеша
Основное применение: математика, логика, программирование, сложный анализ

Дистилляты DeepSeek-R1

Команда DeepSeek обучила компактные модели на выходах R1 (дистилляция). Они сохраняют часть reasoning-способностей при гораздо меньших требованиях к железу:

Модель	Параметры	Базовая архитектура	VRAM (FP16)
DeepSeek-R1-Distill-Qwen-1.5B	1.5B	Qwen2.5-1.5B	~3 ГБ
DeepSeek-R1-Distill-Qwen-7B	7B	Qwen2.5-7B	~14 ГБ
DeepSeek-R1-Distill-Llama-8B	8B	Llama-3.1-8B	~16 ГБ
DeepSeek-R1-Distill-Qwen-14B	14B	Qwen2.5-14B	~28 ГБ
DeepSeek-R1-Distill-Qwen-32B	32B	Qwen2.5-32B	~64 ГБ
DeepSeek-R1-Distill-Llama-70B	70B	Llama-3.1-70B	~140 ГБ

Требования к VRAM

Главный вопрос: сколько видеопамяти нужно?

Формула

VRAM ≈ Параметры × Байт_на_вес + KV-кеш + Оверхед

Где байт на вес зависит от квантизации:

Квантизация	Байт/параметр	DeepSeek-V3 (671B)	DeepSeek-R1-Distill-Qwen-32B
FP16	2.0	~1 342 ГБ	~64 ГБ
INT8 (Q8)	1.0	~671 ГБ	~32 ГБ
Q4_K_M	0.56	~376 ГБ	~18 ГБ
Q4_0	0.5	~336 ГБ	~16 ГБ
Q2_K	0.31	~208 ГБ	~10 ГБ

К этому добавляем 10–20% на KV-кеш (больше при длинном контексте) и ~1–2 ГБ на рантайм.

Практические конфигурации для DeepSeek-V3 / R1 (671B)

Квантизация	Мин. VRAM	Конфигурация GPU	Примечания
FP16	~1 400 ГБ	8× H100 80GB или 8× A100 80GB	Продакшен, максимальное качество
FP8	~700 ГБ	8× H100 80GB	Минимальная потеря качества
Q4_K_M	~400 ГБ	5× A100 80GB или 8× RTX 3090 24GB	Оптимальный баланс
Q4_0	~350 ГБ	4× A100 80GB или 8× RTX 3090	Чуть хуже качество
Q2_K	~220 ГБ	3× A100 80GB	Заметная деградация, не рекомендуется

Важно: DeepSeek-V3/R1 — это MoE-модель. Хотя активны только 37B параметров за один проход, все 671B весов должны быть загружены в VRAM.

Практические конфигурации для дистиллятов

Модель	Квантизация	VRAM	GPU
R1-Distill-Qwen-7B	Q4_K_M	~5 ГБ	RTX 4060 8GB, RTX 3060
R1-Distill-Qwen-7B	FP16	~14 ГБ	RTX 4080 16GB
R1-Distill-Qwen-14B	Q4_K_M	~9 ГБ	RTX 4060 Ti 16GB, RTX 3090
R1-Distill-Qwen-32B	Q4_K_M	~18 ГБ	RTX 3090 24GB, RTX 4090
R1-Distill-Qwen-32B	Q8	~32 ГБ	2× RTX 3090
R1-Distill-Llama-70B	Q4_K_M	~40 ГБ	2× RTX 3090 24GB

Какую квантизацию выбрать?

Для DeepSeek рекомендации:

Q4_K_M — золотой стандарт. Потеря качества 1–2% на большинстве бенчмарков, VRAM в 3.5× меньше FP16
Q5_K_M — если VRAM позволяет, чуть лучше на задачах рассуждения
Q8_0 — практически без потерь, но VRAM в 2× больше Q4
Q2_K — только в крайнем случае. На reasoning-моделях (R1) деградация особенно заметна
FP8 — для серверов с H100/H200: минимальная потеря качества, нативная поддержка FP8 Tensor Cores

Для reasoning-моделей (DeepSeek-R1) качество квантизации важнее, чем для обычных. Если есть выбор — берите Q5_K_M вместо Q4_K_M.

Запуск через vLLM

vLLM — лучший выбор для продакшен-деплоя DeepSeek. Поддерживает tensor parallelism, continuous batching и PagedAttention.

Установка

pip install vllm

DeepSeek-V3 на 8× H100

vllm serve deepseek-ai/DeepSeek-V3 \
    --tensor-parallel-size 8 \
    --max-model-len 32768 \
    --trust-remote-code \
    --dtype auto

DeepSeek-R1 на 8× A100 80GB

vllm serve deepseek-ai/DeepSeek-R1 \
    --tensor-parallel-size 8 \
    --max-model-len 16384 \
    --trust-remote-code \
    --dtype auto \
    --gpu-memory-utilization 0.95

Дистиллят R1-Qwen-32B на одном RTX 4090

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B \
    --quantization awq \
    --max-model-len 8192 \
    --dtype auto

Ключевые параметры vLLM для DeepSeek

Параметр	Значение	Зачем
`--tensor-parallel-size`	Кол-во GPU	Шардирование модели между GPU
`--max-model-len`	8192–131072	Максимальная длина контекста. Больше = больше KV-кеша
`--gpu-memory-utilization`	0.90–0.95	Доля VRAM под модель. 0.95 для выделенного сервера
`--trust-remote-code`	—	Обязательно для DeepSeek (кастомная архитектура)
`--enforce-eager`	—	Отключает CUDA graphs. Помогает при OOM

Запуск через llama.cpp / Ollama

Для локального запуска или когда VRAM не хватает (CPU offload).

Ollama (самый простой способ)

# Дистиллят 7B — работает даже на ноутбуке
ollama run deepseek-r1:7b

# Дистиллят 32B — нужно 24 ГБ VRAM
ollama run deepseek-r1:32b

# Полный R1 671B — нужно 8× GPU или CPU offload
ollama run deepseek-r1:671b

llama.cpp (максимальный контроль)

Скачайте GGUF-файл с HuggingFace и запустите:

# DeepSeek-V3 Q4_K_M на 4 GPU
./llama-server \
    -m DeepSeek-V3-Q4_K_M.gguf \
    --n-gpu-layers 99 \
    --tensor-split 24,24,24,24 \
    -c 8192 \
    --host 0.0.0.0 --port 8080

# DeepSeek-R1-Distill-Qwen-32B Q5_K_M на одном RTX 3090
./llama-server \
    -m DeepSeek-R1-Distill-Qwen-32B-Q5_K_M.gguf \
    --n-gpu-layers 99 \
    -c 8192 \
    --host 0.0.0.0 --port 8080

Параметры llama.cpp

Параметр	Значение	Зачем
`--n-gpu-layers` (`-ngl`)	99	Кол-во слоёв на GPU. 99 = все
`--tensor-split`	`24,24,24,24`	Распределение VRAM по GPU (в ГБ)
`-c`	4096–131072	Длина контекста
`--mlock`	—	Закрепляет модель в RAM (без swap)
`--flash-attn` (`-fa`)	—	Включает Flash Attention (экономит VRAM)

Производительность: чего ожидать

DeepSeek-V3 671B

Конфигурация	Квант	Prompt (t/s)	Generation (t/s)
8× H100 SXM (vLLM, FP8)	FP8	~2 000	~80–100
8× A100 80GB (vLLM)	FP16	~800	~40–50
8× RTX 3090 (llama.cpp)	Q4_K_M	~200	~8–12
4× RTX 3090 + CPU offload	Q4_K_M	~50	~3–5

Дистилляты

Модель	GPU	Квант	Generation (t/s)
R1-Distill-Qwen-7B	RTX 4060 8GB	Q4_K_M	~40–50
R1-Distill-Qwen-14B	RTX 3090 24GB	Q4_K_M	~30–40
R1-Distill-Qwen-32B	RTX 4090 24GB	Q4_K_M	~20–25
R1-Distill-Qwen-32B	2× RTX 3090	Q8	~15–20
R1-Distill-Llama-70B	2× RTX 3090	Q4_K_M	~8–12

Выбор GPU для DeepSeek

Для полной модели (671B)

Вам нужен серверный GPU или кластер потребительских карт:

Вариант	GPU	Общий VRAM	Стоимость	Скорость
Оптимальный	8× H100 80GB	640 ГБ	$$$$$	Быстрый
Бюджетный сервер	8× A100 80GB	640 ГБ	$$$$	Быстрый
Бюджетный кластер	8× RTX 3090	192 ГБ	$$	Медленнее
Минимальный	4× A100 80GB + Q4	320 ГБ	$$$	Средний

Аренда GPU-сервера с 8× A100 80GB — самый практичный способ попробовать полную модель DeepSeek-V3/R1 без покупки железа за $200K+.

Для дистиллятов

Бюджет	GPU	Лучший дистиллят
~$300	RTX 4060 8GB	R1-Distill-Qwen-7B (Q4_K_M)
~$400	RTX 4060 Ti 16GB	R1-Distill-Qwen-14B (Q4_K_M)
~$600	Б/у RTX 3090 24GB	R1-Distill-Qwen-32B (Q4_K_M)
~$1 800	RTX 4090 24GB	R1-Distill-Qwen-32B (Q5_K_M)
~$1 200	2× б/у RTX 3090	R1-Distill-Llama-70B (Q4_K_M)

Для локального использования R1-Distill-Qwen-32B на RTX 3090 — лучший баланс цены и качества reasoning.

Docker-деплой с Open WebUI

Простой способ получить ChatGPT-подобный интерфейс для DeepSeek:

# docker-compose.yml
services:
  ollama:
    image: ollama/ollama
    ports:
      - "11434:11434"
    volumes:
      - ollama_data:/root/.ollama
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]

  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    ports:
      - "3000:8080"
    environment:
      - OLLAMA_BASE_URL=http://ollama:11434
    volumes:
      - webui_data:/app/backend/data
    depends_on:
      - ollama

volumes:
  ollama_data:
  webui_data:

docker compose up -d

# Скачать модель
docker exec -it ollama ollama pull deepseek-r1:32b

Откройте http://localhost:3000 — готово.

Частые проблемы

«Out of Memory» при загрузке

Если модель не помещается:

Уменьшите --max-model-len (контекст) — KV-кеш съедает VRAM
Используйте более агрессивную квантизацию (Q4 → Q3)
Включите --enforce-eager в vLLM (отключает CUDA graphs)
В llama.cpp: уменьшите -ngl для частичного offload на CPU

Медленная генерация

Убедитесь, что модель полностью на GPU (-ngl 99 в llama.cpp)
Включите Flash Attention (-fa в llama.cpp)
Для vLLM: используйте tensor parallelism вместо pipeline
Проверьте, что PCIe не является bottleneck (x16, не x4)

DeepSeek-R1 генерирует слишком длинные ответы

R1 склонен к длинным chain-of-thought рассуждениям. Управляйте через:

# В API-вызове
response = client.chat.completions.create(
    model="deepseek-r1:32b",
    messages=[{"role": "user", "content": "Вопрос"}],
    max_tokens=2048,  # Ограничить длину ответа
    temperature=0.6,  # Ниже = короче рассуждения
)

Итог

Сценарий	Рекомендация
Попробовать DeepSeek	Ollama + R1-Distill-Qwen-7B на любой GPU с 8+ ГБ
Серьёзная локальная работа	R1-Distill-Qwen-32B на RTX 3090 (Q4_K_M)
Продакшен (API)	DeepSeek-V3/R1 полная модель на 8× A100/H100 через vLLM
Максимальное качество reasoning	DeepSeek-R1 671B FP8 на 8× H100

DeepSeek-V3 и R1 — одни из лучших open-source моделей на рынке. Дистилляты позволяют получить reasoning-способности даже на бюджетном железе. А для полной модели аренда GPU-сервера — самый разумный путь.

Хотите запустить DeepSeek на GPU прямо сейчас? Арендуйте GPU-сервер в облаке Intelion — оплата по минутам, без обязательств.

Гайды

#GPU

#LLM

#vLLM

#llama.cpp

#inference

#DeepSeek

#VRAM

#квантизация