Гайды

26

13 марта 2026

Как запустить DeepSeek на GPU-сервере: полный гайд

Требования к VRAM, выбор квантизации, настройка vLLM и llama.cpp для DeepSeek-V3, DeepSeek-R1 и их дистиллятов

DeepSeek стал одной из самых обсуждаемых моделей 2025–2026 годов. DeepSeek-V3 с 671 миллиардом параметров показывает результаты на уровне GPT-4o и Claude 3.5 Sonnet, а DeepSeek-R1 — первая open-source модель с полноценным chain-of-thought рассуждением.

Но запустить модель на 671B параметров — это не ollama run deepseek. Нужно правильное железо, правильная квантизация и правильный inference-сервер. В этом гайде разберём всё по шагам.

Семейство моделей DeepSeek

Прежде чем считать VRAM — разберёмся, какие модели существуют.

DeepSeek-V3 (671B)

Основная модель. Архитектура Mixture of Experts (MoE): 671B параметров всего, но при инференсе активны только ~37B. Это делает модель быстрее, чем «плотный» аналог на 671B, но VRAM нужен под все 671B весов.

  • Контекст: 128K токенов
  • Лицензия: MIT (полностью открытая)
  • Основное применение: генерация текста, анализ, код

DeepSeek-R1 (671B)

Модель с chain-of-thought рассуждением. Та же архитектура MoE (671B / 37B active), но обучена с reinforcement learning для поэтапного рассуждения. Генерирует длинные «цепочки мысли» перед финальным ответом.

  • Контекст: 128K токенов
  • Особенность: ответы длиннее из-за reasoning-блока → больше KV-кеша
  • Основное применение: математика, логика, программирование, сложный анализ

Дистилляты DeepSeek-R1

Команда DeepSeek обучила компактные модели на выходах R1 (дистилляция). Они сохраняют часть reasoning-способностей при гораздо меньших требованиях к железу:

Модель Параметры Базовая архитектура VRAM (FP16)
DeepSeek-R1-Distill-Qwen-1.5B 1.5B Qwen2.5-1.5B ~3 ГБ
DeepSeek-R1-Distill-Qwen-7B 7B Qwen2.5-7B ~14 ГБ
DeepSeek-R1-Distill-Llama-8B 8B Llama-3.1-8B ~16 ГБ
DeepSeek-R1-Distill-Qwen-14B 14B Qwen2.5-14B ~28 ГБ
DeepSeek-R1-Distill-Qwen-32B 32B Qwen2.5-32B ~64 ГБ
DeepSeek-R1-Distill-Llama-70B 70B Llama-3.1-70B ~140 ГБ

Требования к VRAM

Главный вопрос: сколько видеопамяти нужно?

Формула

VRAM ≈ Параметры × Байт_на_вес + KV-кеш + Оверхед

Где байт на вес зависит от квантизации:

Квантизация Байт/параметр DeepSeek-V3 (671B) DeepSeek-R1-Distill-Qwen-32B
FP16 2.0 ~1 342 ГБ ~64 ГБ
INT8 (Q8) 1.0 ~671 ГБ ~32 ГБ
Q4_K_M 0.56 ~376 ГБ ~18 ГБ
Q4_0 0.5 ~336 ГБ ~16 ГБ
Q2_K 0.31 ~208 ГБ ~10 ГБ

К этому добавляем 10–20% на KV-кеш (больше при длинном контексте) и ~1–2 ГБ на рантайм.

Практические конфигурации для DeepSeek-V3 / R1 (671B)

Квантизация Мин. VRAM Конфигурация GPU Примечания
FP16 ~1 400 ГБ 8× H100 80GB или 8× A100 80GB Продакшен, максимальное качество
FP8 ~700 ГБ 8× H100 80GB Минимальная потеря качества
Q4_K_M ~400 ГБ 5× A100 80GB или 8× RTX 3090 24GB Оптимальный баланс
Q4_0 ~350 ГБ 4× A100 80GB или 8× RTX 3090 Чуть хуже качество
Q2_K ~220 ГБ 3× A100 80GB Заметная деградация, не рекомендуется

Важно: DeepSeek-V3/R1 — это MoE-модель. Хотя активны только 37B параметров за один проход, все 671B весов должны быть загружены в VRAM.

Практические конфигурации для дистиллятов

Модель Квантизация VRAM GPU
R1-Distill-Qwen-7B Q4_K_M ~5 ГБ RTX 4060 8GB, RTX 3060
R1-Distill-Qwen-7B FP16 ~14 ГБ RTX 4080 16GB
R1-Distill-Qwen-14B Q4_K_M ~9 ГБ RTX 4060 Ti 16GB, RTX 3090
R1-Distill-Qwen-32B Q4_K_M ~18 ГБ RTX 3090 24GB, RTX 4090
R1-Distill-Qwen-32B Q8 ~32 ГБ 2× RTX 3090
R1-Distill-Llama-70B Q4_K_M ~40 ГБ 2× RTX 3090 24GB

Какую квантизацию выбрать?

Для DeepSeek рекомендации:

  • Q4_K_M — золотой стандарт. Потеря качества 1–2% на большинстве бенчмарков, VRAM в 3.5× меньше FP16
  • Q5_K_M — если VRAM позволяет, чуть лучше на задачах рассуждения
  • Q8_0 — практически без потерь, но VRAM в 2× больше Q4
  • Q2_K — только в крайнем случае. На reasoning-моделях (R1) деградация особенно заметна
  • FP8 — для серверов с H100/H200: минимальная потеря качества, нативная поддержка FP8 Tensor Cores

Для reasoning-моделей (DeepSeek-R1) качество квантизации важнее, чем для обычных. Если есть выбор — берите Q5_K_M вместо Q4_K_M.

Запуск через vLLM

vLLM — лучший выбор для продакшен-деплоя DeepSeek. Поддерживает tensor parallelism, continuous batching и PagedAttention.

Установка

pip install vllm

DeepSeek-V3 на 8× H100

vllm serve deepseek-ai/DeepSeek-V3 \
    --tensor-parallel-size 8 \
    --max-model-len 32768 \
    --trust-remote-code \
    --dtype auto

DeepSeek-R1 на 8× A100 80GB

vllm serve deepseek-ai/DeepSeek-R1 \
    --tensor-parallel-size 8 \
    --max-model-len 16384 \
    --trust-remote-code \
    --dtype auto \
    --gpu-memory-utilization 0.95

Дистиллят R1-Qwen-32B на одном RTX 4090

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B \
    --quantization awq \
    --max-model-len 8192 \
    --dtype auto

Ключевые параметры vLLM для DeepSeek

Параметр Значение Зачем
--tensor-parallel-size Кол-во GPU Шардирование модели между GPU
--max-model-len 8192–131072 Максимальная длина контекста. Больше = больше KV-кеша
--gpu-memory-utilization 0.90–0.95 Доля VRAM под модель. 0.95 для выделенного сервера
--trust-remote-code Обязательно для DeepSeek (кастомная архитектура)
--enforce-eager Отключает CUDA graphs. Помогает при OOM

Запуск через llama.cpp / Ollama

Для локального запуска или когда VRAM не хватает (CPU offload).

Ollama (самый простой способ)

# Дистиллят 7B — работает даже на ноутбуке
ollama run deepseek-r1:7b

# Дистиллят 32B — нужно 24 ГБ VRAM
ollama run deepseek-r1:32b

# Полный R1 671B — нужно 8× GPU или CPU offload
ollama run deepseek-r1:671b

llama.cpp (максимальный контроль)

Скачайте GGUF-файл с HuggingFace и запустите:

# DeepSeek-V3 Q4_K_M на 4 GPU
./llama-server \
    -m DeepSeek-V3-Q4_K_M.gguf \
    --n-gpu-layers 99 \
    --tensor-split 24,24,24,24 \
    -c 8192 \
    --host 0.0.0.0 --port 8080
# DeepSeek-R1-Distill-Qwen-32B Q5_K_M на одном RTX 3090
./llama-server \
    -m DeepSeek-R1-Distill-Qwen-32B-Q5_K_M.gguf \
    --n-gpu-layers 99 \
    -c 8192 \
    --host 0.0.0.0 --port 8080

Параметры llama.cpp

Параметр Значение Зачем
--n-gpu-layers (-ngl) 99 Кол-во слоёв на GPU. 99 = все
--tensor-split 24,24,24,24 Распределение VRAM по GPU (в ГБ)
-c 4096–131072 Длина контекста
--mlock Закрепляет модель в RAM (без swap)
--flash-attn (-fa) Включает Flash Attention (экономит VRAM)

Производительность: чего ожидать

DeepSeek-V3 671B

Конфигурация Квант Prompt (t/s) Generation (t/s)
8× H100 SXM (vLLM, FP8) FP8 ~2 000 ~80–100
8× A100 80GB (vLLM) FP16 ~800 ~40–50
8× RTX 3090 (llama.cpp) Q4_K_M ~200 ~8–12
4× RTX 3090 + CPU offload Q4_K_M ~50 ~3–5

Дистилляты

Модель GPU Квант Generation (t/s)
R1-Distill-Qwen-7B RTX 4060 8GB Q4_K_M ~40–50
R1-Distill-Qwen-14B RTX 3090 24GB Q4_K_M ~30–40
R1-Distill-Qwen-32B RTX 4090 24GB Q4_K_M ~20–25
R1-Distill-Qwen-32B 2× RTX 3090 Q8 ~15–20
R1-Distill-Llama-70B 2× RTX 3090 Q4_K_M ~8–12

Выбор GPU для DeepSeek

Для полной модели (671B)

Вам нужен серверный GPU или кластер потребительских карт:

Вариант GPU Общий VRAM Стоимость Скорость
Оптимальный 8× H100 80GB 640 ГБ $$$$$ Быстрый
Бюджетный сервер 8× A100 80GB 640 ГБ $$$$ Быстрый
Бюджетный кластер 8× RTX 3090 192 ГБ $$ Медленнее
Минимальный 4× A100 80GB + Q4 320 ГБ $$$ Средний

Аренда GPU-сервера с 8× A100 80GB — самый практичный способ попробовать полную модель DeepSeek-V3/R1 без покупки железа за $200K+.

Для дистиллятов

Бюджет GPU Лучший дистиллят
~$300 RTX 4060 8GB R1-Distill-Qwen-7B (Q4_K_M)
~$400 RTX 4060 Ti 16GB R1-Distill-Qwen-14B (Q4_K_M)
~$600 Б/у RTX 3090 24GB R1-Distill-Qwen-32B (Q4_K_M)
~$1 800 RTX 4090 24GB R1-Distill-Qwen-32B (Q5_K_M)
~$1 200 2× б/у RTX 3090 R1-Distill-Llama-70B (Q4_K_M)

Для локального использования R1-Distill-Qwen-32B на RTX 3090 — лучший баланс цены и качества reasoning.

Docker-деплой с Open WebUI

Простой способ получить ChatGPT-подобный интерфейс для DeepSeek:

# docker-compose.yml
services:
  ollama:
    image: ollama/ollama
    ports:
      - "11434:11434"
    volumes:
      - ollama_data:/root/.ollama
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]

  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    ports:
      - "3000:8080"
    environment:
      - OLLAMA_BASE_URL=http://ollama:11434
    volumes:
      - webui_data:/app/backend/data
    depends_on:
      - ollama

volumes:
  ollama_data:
  webui_data:
docker compose up -d

# Скачать модель
docker exec -it ollama ollama pull deepseek-r1:32b

Откройте http://localhost:3000 — готово.

Частые проблемы

«Out of Memory» при загрузке

Если модель не помещается:

  1. Уменьшите --max-model-len (контекст) — KV-кеш съедает VRAM
  2. Используйте более агрессивную квантизацию (Q4 → Q3)
  3. Включите --enforce-eager в vLLM (отключает CUDA graphs)
  4. В llama.cpp: уменьшите -ngl для частичного offload на CPU

Медленная генерация

  1. Убедитесь, что модель полностью на GPU (-ngl 99 в llama.cpp)
  2. Включите Flash Attention (-fa в llama.cpp)
  3. Для vLLM: используйте tensor parallelism вместо pipeline
  4. Проверьте, что PCIe не является bottleneck (x16, не x4)

DeepSeek-R1 генерирует слишком длинные ответы

R1 склонен к длинным chain-of-thought рассуждениям. Управляйте через:

# В API-вызове
response = client.chat.completions.create(
    model="deepseek-r1:32b",
    messages=[{"role": "user", "content": "Вопрос"}],
    max_tokens=2048,  # Ограничить длину ответа
    temperature=0.6,  # Ниже = короче рассуждения
)

Итог

Сценарий Рекомендация
Попробовать DeepSeek Ollama + R1-Distill-Qwen-7B на любой GPU с 8+ ГБ
Серьёзная локальная работа R1-Distill-Qwen-32B на RTX 3090 (Q4_K_M)
Продакшен (API) DeepSeek-V3/R1 полная модель на 8× A100/H100 через vLLM
Максимальное качество reasoning DeepSeek-R1 671B FP8 на 8× H100

DeepSeek-V3 и R1 — одни из лучших open-source моделей на рынке. Дистилляты позволяют получить reasoning-способности даже на бюджетном железе. А для полной модели аренда GPU-сервера — самый разумный путь.


Хотите запустить DeepSeek на GPU прямо сейчас? Арендуйте GPU-сервер в облаке Intelion — оплата по минутам, без обязательств.

Гайды

#GPU

#LLM

#vLLM

#llama.cpp

#inference

#DeepSeek

#VRAM

#квантизация