DeepSeek · MIT · open-weight

Аренда GPU для DeepSeek V3.2
запуск за 5 минут,
от 168 ₽/час

DeepSeek V3.2-Exp — 671B параметров, 37B активных, MoE с Sparse Attention. Длинный контекст 128K, лицензия MIT, vLLM/SGLang day-0.

Серверы в РФ (Самарская обл.) Оплата картой РФ, СБП, по счёту

Популярные задачи наших клиентов

Чат-ассистент уровня GPT-4o

DeepSeek V3.2-Exp на MMLU-Pro даёт 85.0 — на уровне Claude Sonnet 4 и GPT-4o. Хорошо работает с русским. Замена ChatGPT в корпоративном контуре.

Генерация и ревью кода

SWE-Bench Verified — 67.8–68.4%, LiveCodeBench — 74.1–74.9%. Уровень Claude Sonnet 4. Подходит под Cursor-like ассистенты и code-agents.

Агенты и tool-use

V3.1-Terminus заметно улучшила agentic-возможности (BrowseComp 38.5 vs 30.0 у V3.1). V3.2-Exp унаследовала их. Native function calling, structured output.

Другая задача? Напишите нам — подберём конфигурацию.

4 шага до запуска

Как арендовать сервер с Tesla A100

От регистрации до запуска — меньше 10 минут. Без звонков менеджеру и подписания договоров.

1

Соберите сервер

Выберите GPU, объем диска, операционную систему и тариф в конфигураторе.

2

Создайте аккаунт

Простая регистрация через Яндекс-ID, Т-Банк или электронную почту.

3

Пополните баланс

Картой или по счёту для юрлиц. Средства зачисляются мгновенно.

Запустите сервер

И он будет готов через пару минут. Подключайтесь по SSH, RDP или прямо в браузере.

Платите только за время

Остановите сервер в любой момент и неиспользованные деньги вернутся на баланс.

Скидки за долгий срок аренды

При аренде от 3-х месяцев вы получаете скидку от 5% до 25%.

Смена конфига на лету

Начните с CPU‑сервера, затем подключите GPU для тяжёлых задач.

Какую версию выбрать

ФлагманMoE

DeepSeek-V3.2-Exp (FP8)

671B total / 37B activeMoE · Flagship · Sparse Attention

Флагман сентября 2025. MoE-архитектура с DeepSeek Sparse Attention (DSA). Контекст 128K. На уровне V3.1-Terminus, но дешевле в инференсе. Нативный формат FP8.

VRAM (bf16):
~1.4 ТБ (BF16)
VRAM (4-bit):
~700 ГБ (FP8 native)

8× H100/H200 80 ГБ (FP8) или 16× A100 80 ГБ (BF16)

MoE

DeepSeek-V3.2-Exp (Q4 GGUF)

671B / 37B activeMoE · 4-bit Dynamic

Динамическая 4-bit квантизация (Unsloth-style). Сжатие ~50%, потери качества <1%. Запуск через llama.cpp или ktransformers.

VRAM (bf16):
VRAM (4-bit):
~370 ГБ

4–6× A100 80 ГБ или 4× H100 80 ГБ

MoE

DeepSeek-V3.2-Exp (Q2 Dynamic)

671B / 37B activeMoE · 2-bit Dynamic

Селективная 2-bit (MoE-слои) + 4-6 bit (attention). Самый бюджетный вариант для self-host. Latency выше, но запускается на 1–2 GPU.

VRAM (bf16):
VRAM (4-bit):
~245 ГБ

2–3× A100 80 ГБ или 1× H200 141 ГБ + офлоад в RAM

MoE

DeepSeek-V3.1-Terminus

671B / 37B activeMoE · Hybrid Reasoning

Базовая модель, на которой построена V3.2-Exp. Релиз 22 сентября 2025. Гибридный reasoning, контекст 163K. Используй, если нужен thinking-mode без DSA.

VRAM (bf16):
~1.4 ТБ
VRAM (4-bit):
~370 ГБ (Q4)

8× H100/H200 (FP8) / 4× A100 (Q4)

DeepSeek-R1-Distill-Qwen-32B

32BDense · Distill · Reasoning

Distill-вариант на базе Qwen2.5-32B с DeepSeek reasoning traces. AIME 2024 — 72.6% Pass@1. Apache 2.0. Помещается на одну GPU.

VRAM (bf16):
~64 ГБ
VRAM (4-bit):
~19 ГБ

A100 80 ГБ (bf16) / RTX 4090 48 ГБ (Q4)

DeepSeek-R1-Distill-Llama-70B

70BDense · Distill

Distill на базе Llama-3.3-70B. AIME 2024 — 70.0% Pass@1. Llama-3-Community лицензия. Альтернатива R1 для одного-двух GPU.

VRAM (bf16):
~140 ГБ
VRAM (4-bit):
~42 ГБ

2× A100 80 ГБ (bf16) / RTX 4090 48 ГБ (Q4)

4 способа запуска

Запустите одной командой

После создания сервера подключитесь по SSH и выберите подходящий инструмент.

Стандарт production-инференса. vLLM поддерживает V3.2-Exp с дня релиза. Нужны Hopper/Blackwell (H100/H200/B200) для FP8. Конфиг — DP=8, EP=8, TP=1.

# Ubuntu 24, CUDA 12.x, 8× H100/H200 80 ГБ
uv venv /opt/vllm && source /opt/vllm/bin/activate
uv pip install -U vllm --torch-backend auto
uv pip install \
  git+https://github.com/deepseek-ai/[email protected] \
  --no-build-isolation
vllm serve deepseek-ai/DeepSeek-V3.2-Exp \
  --data-parallel-size 8 \
  --enable-expert-parallel \
  --tensor-parallel-size 1 \
  --max-model-len 131072 \
  --trust-remote-code
Запустить DeepSeek V3.2

~168 ₽/час · посекундная оплата

Выберите конфигурацию сервера

Укажите параметры и запустите сервер за несколько минут

Тестовый запуск

Тестовый период
для бизнеса

Мы уверены в железе — поэтому даём потестировать до покупки.
Подключитесь по ЭДО, напишите нам, и мы обсудим условия тестового запуска.

Как получить:

  • 1 Подключитесь к нам по ЭДО
  • 2 Напишите нам
  • 3 Получите сервер с Tesla A100

Данные для подключения по ЭДО:

Оператор: АО «Калуга Астрал»

ID: 2AEE383BDF8-E70C-4F74-9E7E-995E8AC21999

Написать нам

Почему арендуют у нас

Серверы работают , мы следим

Мониторинг оборудования 24/7. Неисправный компонент заменим по гарантии без доплат.

Платите только за вычисления

Посекундная тарификация. Выключили сервер — счётчик остановился, данные на диске сохраняются. Скидки до 25% при оплате за 12 месяцев.

Поддержка, а не тикет-система

Сразу инженер, который разбирается в CUDA, PyTorch и настройке GPU-серверов. Ответ — до 15 минут.

Вопросы и ответы

Полная FP8-версия требует 8× H100 или H200 80 ГБ (~700 ГБ под веса + KV-cache). Поддерживаются только Hopper и Blackwell — FP8 compute. Для BF16 нужно 16× A100 80 ГБ. Для бюджетного варианта смотри Q4 GGUF — там хватит 4–6× A100 80 ГБ.

DSA — fine-grained sparse attention, новая разреженная attention в V3.2-Exp. Даёт в 2–3× быстрее инференс на длинном контексте (128K) при сохранении качества V3.1-Terminus. Это и есть основное отличие версии 3.2.

Да. DeepSeek V3.2-Exp лицензирована под MIT — самая либеральная open-source лицензия. Можно встраивать в продукт, продавать, форкать, модифицировать. Distill-варианты на Qwen — Apache 2.0, на Llama — Llama-3-Community License (тоже коммерческая).

V3.2-Exp — экспериментальный преемник V3.1-Terminus с DSA. Качество практически идентичное (MMLU-Pro 85.0, GPQA 80.7 у обеих), но V3.2 в 2× дешевле в API и быстрее на длинном контексте. Для production бери V3.2; если нужен проверенный stable-baseline — V3.1-Terminus.

Сервер готов за 3–5 минут после оплаты. Дальше — установка vLLM/SGLang (~3 минуты), скачивание весов с HuggingFace (700 ГБ FP8 — 30–60 минут на 10-гигабитном канале). Distill-варианты (32B/70B) — 5–10 минут до первого токена. Детали SSH — в инструкции.

В полном виде — нет, 671B параметров не поместятся даже на H200 141 ГБ. Но есть варианты: Q2-dynamic GGUF (~245 ГБ) запускается на 2× A100 80 ГБ или 1× H200 + офлоад в RAM. Для одной GPU бери R1-Distill-Qwen-32B — на A100 80 ГБ работает в bf16.

Нет. Мы запускаем open-weight веса локально на серверах в РФ (Самарская обл.). Модель скачивается один раз с HuggingFace и работает изолированно. Если нужен полностью изолированный контур — поддержка настроит VPC.

Платите за каждую секунду работы сервера. Остановили — счётчик замер, диск сохраняется отдельно (~2 ₽/час за 256 ГБ). Неиспользованный остаток баланса возвращается.

Да. Работаем с ООО/ИП по договору, оплата по счёту, НДС, ЭДО через Диадок/СБИС. В блоке «Тестовый период для бизнеса» — оператор и ID для ЭДО.

DeepSeek снизил цену API в 2× после релиза V3.2. Self-host окупается на 50–100 млн токенов в день на 8× H100. Если нагрузка ниже — проще через API. Если выше или нужен изолированный контур — свой сервер выгоднее и без rate limits.

V3.2-Exp — гибридная модель. Reasoning Mode даёт +1–2% на reasoning-бенчмарках (AIME 88.4 vs 89.3 без RM), но latency растёт в 3–5×. Включается через chat template: {"thinking": true}. Для production-чата держи RM выключенным.

DeepSeek V3.2 на вашем GPU
От 168 ₽/час, посекундная оплата.

Оплата в рублях, посекундно. Поддержка 24/7. Запуск за 5 минут.