Question 1

Какой GPU нужен для запуска DeepSeek V3.2-Exp?

Accepted Answer

Полная FP8-версия требует 8× H100 или H200 80 ГБ (~700 ГБ под веса + KV-cache). Поддерживаются только Hopper и Blackwell — FP8 compute. Для BF16 нужно 16× A100 80 ГБ. Для бюджетного варианта смотри Q4 GGUF — там хватит 4–6× A100 80 ГБ.

Question 2

Что такое DeepSeek Sparse Attention (DSA)?

Accepted Answer

DSA — fine-grained sparse attention, новая разреженная attention в V3.2-Exp. Даёт в 2–3× быстрее инференс на длинном контексте (128K) при сохранении качества V3.1-Terminus. Это и есть основное отличие версии 3.2.

Question 3

Можно ли использовать V3.2 в коммерческом продукте?

Accepted Answer

Да. DeepSeek V3.2-Exp лицензирована под MIT — самая либеральная open-source лицензия. Можно встраивать в продукт, продавать, форкать, модифицировать. Distill-варианты на Qwen — Apache 2.0, на Llama — Llama-3-Community License (тоже коммерческая).

Question 4

DeepSeek V3.2 vs V3.1-Terminus — что выбрать?

Accepted Answer

V3.2-Exp — экспериментальный преемник V3.1-Terminus с DSA. Качество практически идентичное (MMLU-Pro 85.0, GPQA 80.7 у обеих), но V3.2 в 2× дешевле в API и быстрее на длинном контексте. Для production бери V3.2; если нужен проверенный stable-baseline — V3.1-Terminus.

Question 5

Сколько длится запуск сервера с DeepSeek V3.2?

Accepted Answer

Сервер готов за 3–5 минут после оплаты. Дальше — установка vLLM/SGLang (~3 минуты), скачивание весов с HuggingFace (700 ГБ FP8 — 30–60 минут на 10-гигабитном канале). Distill-варианты (32B/70B) — 5–10 минут до первого токена. Детали SSH — в инструкции.

Question 6

Можно ли запустить V3.2 на одной GPU?

Accepted Answer

В полном виде — нет, 671B параметров не поместятся даже на H200 141 ГБ. Но есть варианты: Q2-dynamic GGUF (~245 ГБ) запускается на 2× A100 80 ГБ или 1× H200 + офлоад в RAM. Для одной GPU бери R1-Distill-Qwen-32B — на A100 80 ГБ работает в bf16.

Question 7

Данные моего запроса не утекут DeepSeek?

Accepted Answer

Нет. Мы запускаем open-weight веса локально на серверах в РФ (Самарская обл.). Модель скачивается один раз с HuggingFace и работает изолированно. Если нужен полностью изолированный контур — поддержка настроит VPC.

Question 8

Посекундная оплата — как это работает?

Accepted Answer

Платите за каждую секунду работы сервера. Остановили — счётчик замер, диск сохраняется отдельно (~2 ₽/час за 256 ГБ). Неиспользованный остаток баланса возвращается.

Question 9

Можно с юрлица, с закрывающими документами?

Accepted Answer

Да. Работаем с ООО/ИП по договору, оплата по счёту, НДС, ЭДО через Диадок/СБИС. В блоке «Тестовый период для бизнеса» — оператор и ID для ЭДО.

Question 10

DeepSeek V3.2 vs DeepSeek API — что дешевле?

Accepted Answer

DeepSeek снизил цену API в 2× после релиза V3.2. Self-host окупается на 50–100 млн токенов в день на 8× H100. Если нагрузка ниже — проще через API. Если выше или нужен изолированный контур — свой сервер выгоднее и без rate limits.

Question 11

Как включить thinking-mode (reasoning) в V3.2?

Accepted Answer

V3.2-Exp — гибридная модель. Reasoning Mode даёт +1–2% на reasoning-бенчмарках (AIME 88.4 vs 89.3 без RM), но latency растёт в 3–5×. Включается через chat template: {"thinking": true}. Для production-чата держи RM выключенным.

Аренда GPU для DeepSeek V3.2
запуск за 5 минут,
от 168 ₽/час

Популярные задачи наших клиентов

Чат-ассистент уровня GPT-4o

Генерация и ревью кода

Агенты и tool-use

Как арендовать сервер с Tesla A100

Соберите сервер

Создайте аккаунт

Пополните баланс

Запустите сервер

Платите только за время

Скидки за долгий срок аренды

Смена конфига на лету

Какую версию выбрать

DeepSeek-V3.2-Exp (FP8)

DeepSeek-V3.2-Exp (Q4 GGUF)

DeepSeek-V3.2-Exp (Q2 Dynamic)

DeepSeek-V3.1-Terminus

DeepSeek-R1-Distill-Qwen-32B

DeepSeek-R1-Distill-Llama-70B

Запустите одной командой

Выберите конфигурацию сервера

Тестовый период
для бизнеса

Почему арендуют у нас

Серверы работают , мы следим

Платите только за вычисления

Поддержка, а не тикет-система

Вопросы и ответы

DeepSeek V3.2 на вашем GPU
От 168 ₽/час, посекундная оплата.

Аренда GPU для DeepSeek V3.2 запуск за 5 минут, от 168 ₽/час

Популярные задачи наших клиентов

Чат-ассистент уровня GPT-4o

Генерация и ревью кода

Агенты и tool-use

Как арендовать сервер с Tesla A100

Соберите сервер

Создайте аккаунт

Пополните баланс

Запустите сервер

Платите только за время

Скидки за долгий срок аренды

Смена конфига на лету

Какую версию выбрать

DeepSeek-V3.2-Exp (FP8)

DeepSeek-V3.2-Exp (Q4 GGUF)

DeepSeek-V3.2-Exp (Q2 Dynamic)

DeepSeek-V3.1-Terminus

DeepSeek-R1-Distill-Qwen-32B

DeepSeek-R1-Distill-Llama-70B

Запустите одной командой

Выберите конфигурацию сервера

Тестовый период для бизнеса

Почему арендуют у нас

Серверы работают , мы следим

Платите только за вычисления

Поддержка, а не тикет-система

Вопросы и ответы

Какой GPU нужен для запуска DeepSeek V3.2-Exp?

Что такое DeepSeek Sparse Attention (DSA)?

Можно ли использовать V3.2 в коммерческом продукте?

DeepSeek V3.2 vs V3.1-Terminus — что выбрать?

Сколько длится запуск сервера с DeepSeek V3.2?

Можно ли запустить V3.2 на одной GPU?

Данные моего запроса не утекут DeepSeek?

Посекундная оплата — как это работает?

Можно с юрлица, с закрывающими документами?

DeepSeek V3.2 vs DeepSeek API — что дешевле?

Как включить thinking-mode (reasoning) в V3.2?

DeepSeek V3.2 на вашем GPU От 168 ₽/час, посекундная оплата.

Аренда GPU для DeepSeek V3.2
запуск за 5 минут,
от 168 ₽/час

Тестовый период
для бизнеса

DeepSeek V3.2 на вашем GPU
От 168 ₽/час, посекундная оплата.