DeepSeek · MIT · open-weight

Аренда GPU для DeepSeek R1
запуск за 5 минут,
от 168 ₽/час

Reasoning‑модель уровня OpenAI o1 под лицензией MIT. Distill‑версии от 1.5B до 70B и MoE 671B на GPU в РФ.

Серверы в РФ (Самарская обл.) Оплата картой РФ, СБП, по счёту

Популярные задачи наших клиентов

Сложный reasoning и логика

Главная фича R1: reinforcement learning над цепочкой мыслей. GPQA Diamond 81% (R1‑0528), AIME 2025 87.5%. Сравнимо с OpenAI o3.

Математика и научные задачи

MATH‑500 97.3% у флагмана, 94% у distill 32B. Олимпиадная математика, доказательства, физические модели — модель сама расписывает шаги.

Генерация и аудит кода

SWE‑Bench Verified 57.6%, LiveCodeBench 73.3%, Codeforces rating 1930. Aider Polyglot 71.6% — для bug‑fixing и refactoring в больших репозиториях.

Другая задача? Напишите нам — подберём конфигурацию.

4 шага до запуска

Как арендовать сервер с Tesla A100

От регистрации до запуска — меньше 10 минут. Без звонков менеджеру и подписания договоров.

1

Соберите сервер

Выберите GPU, объем диска, операционную систему и тариф в конфигураторе.

2

Создайте аккаунт

Простая регистрация через Яндекс-ID, Т-Банк или электронную почту.

3

Пополните баланс

Картой или по счёту для юрлиц. Средства зачисляются мгновенно.

Запустите сервер

И он будет готов через пару минут. Подключайтесь по SSH, RDP или прямо в браузере.

Платите только за время

Остановите сервер в любой момент и неиспользованные деньги вернутся на баланс.

Скидки за долгий срок аренды

При аренде от 3-х месяцев вы получаете скидку от 5% до 25%.

Смена конфига на лету

Начните с CPU‑сервера, затем подключите GPU для тяжёлых задач.

Какую версию выбрать

ФлагманMoE

DeepSeek‑R1‑0528 (671B MoE)

671B total / 37B activeMoE · Flagship

Флагман. Reasoning уровня OpenAI o3 — AIME 2025 87.5%, GPQA 81%, SWE‑Verified 57.6%. Контекст 128K.

VRAM (bf16):
~1.4 ТБ
VRAM (4-bit):
~404 ГБ

8× H200 141 ГБ (bf16) / 8× A100 80 ГБ (Q4)

DeepSeek‑R1‑Distill‑Llama‑70B

70BDense

Лучший distill: AIME 70%, MATH‑500 94.5%, GPQA 65.2%. Базируется на Llama 3.3 70B Instruct.

VRAM (bf16):
~140 ГБ
VRAM (4-bit):
~40 ГБ

2× A100 80 ГБ (bf16) / A100 80 ГБ (Q4)

DeepSeek‑R1‑Distill‑Qwen‑32B

32BDense

Sweet spot: обходит OpenAI o1‑mini, AIME 72.6%, MATH‑500 94.3%, GPQA 62.1%. Контекст 128K.

VRAM (bf16):
~66 ГБ
VRAM (4-bit):
~18 ГБ

A100 80 ГБ (bf16) / RTX 4090 48 ГБ (Q4)

DeepSeek‑R1‑Distill‑Qwen‑14B

14BDense

Баланс цены и качества: AIME 69.7%, MATH‑500 93.9%, GPQA 59.1%. База — Qwen2.5‑14B.

VRAM (bf16):
~28 ГБ
VRAM (4-bit):
~9 ГБ

RTX 4090 48 ГБ (bf16) / RTX 3090 24 ГБ (Q4)

DeepSeek‑R1‑0528‑Qwen3‑8B

8BDense · Reasoning

Свежий distill из R1‑0528 на Qwen3‑8B base: AIME 2024 86%, GPQA 61.1%. Сопоставим с Qwen3‑235B Thinking.

VRAM (bf16):
~17 ГБ
VRAM (4-bit):
~6 ГБ

RTX 3090 / A10 24 ГБ (bf16)

DeepSeek‑R1‑Distill‑Qwen‑7B

7BDense

Лёгкий старт: AIME 55.5%, MATH‑500 92.8%. Базируется на Qwen2.5‑Math‑7B — силён в математике.

VRAM (bf16):
~16 ГБ
VRAM (4-bit):
~5 ГБ

RTX 3090 / A10 24 ГБ

DeepSeek‑R1‑Distill‑Llama‑8B

8BDense

Distill на Llama 3.1‑8B: AIME 50.4%, MATH‑500 89.1%. Подходит под англоязычный чат и tool‑use.

VRAM (bf16):
~16 ГБ
VRAM (4-bit):
~5 ГБ

RTX 3090 / A10 24 ГБ

DeepSeek‑R1‑Distill‑Qwen‑1.5B

1.5BDense · Edge

Самая лёгкая reasoning‑модель: AIME 28.9%, MATH‑500 83.9%. Для on‑device, edge, прототипов.

VRAM (bf16):
~4 ГБ
VRAM (4-bit):
~1.5 ГБ

Любая GPU 8 ГБ+

4 способа запуска

Запустите одной командой

После создания сервера подключитесь по SSH и выберите подходящий инструмент.

Стандарт для production inference. PagedAttention, tensor parallelism, OpenAI‑совместимый API. Reasoning‑парсер выделяет блок <think> в отдельное поле reasoning. Требуется vLLM ≥ 0.9.x, Python 3.11.

# Ubuntu 24, системный Python managed — ставим в venv:
python3 -m venv /opt/vllm && source /opt/vllm/bin/activate
pip install 'vllm>=0.9.0'
# DeepSeek-R1-Distill-Qwen-32B на A100 80GB (bf16):
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B \
  --tensor-parallel-size 1 \
  --max-model-len 32768 \
  --gpu-memory-utilization 0.90 \
  --reasoning-parser deepseek_r1
# Полный 671B на 8× H200/A100:
# vllm serve deepseek-ai/DeepSeek-R1-0528 --tensor-parallel-size 8 \
#   --max-model-len 65536 --reasoning-parser deepseek_r1
Запустить DeepSeek R1

~168 ₽/час · посекундная оплата

Выберите конфигурацию сервера

Укажите параметры и запустите сервер за несколько минут

Тестовый запуск

Тестовый период
для бизнеса

Мы уверены в железе — поэтому даём потестировать до покупки.
Подключитесь по ЭДО, напишите нам, и мы обсудим условия тестового запуска.

Как получить:

  • 1 Подключитесь к нам по ЭДО
  • 2 Напишите нам
  • 3 Получите сервер с Tesla A100

Данные для подключения по ЭДО:

Оператор: АО «Калуга Астрал»

ID: 2AEE383BDF8-E70C-4F74-9E7E-995E8AC21999

Написать нам

Почему арендуют у нас

Серверы работают , мы следим

Мониторинг оборудования 24/7. Неисправный компонент заменим по гарантии без доплат.

Платите только за вычисления

Посекундная тарификация. Выключили сервер — счётчик остановился, данные на диске сохраняются. Скидки до 25% при оплате за 12 месяцев.

Поддержка, а не тикет-система

Сразу инженер, который разбирается в CUDA, PyTorch и настройке GPU-серверов. Ответ — до 15 минут.

Вопросы и ответы

R1 — это reasoning‑модель: перед ответом она генерирует длинный блок размышлений в тегах <think>, а потом даёт ответ. Натренирована через reinforcement learning без supervised data на этапе RL. Качество математики и кода у неё ближе к OpenAI o1/o3, чем к классическим chat‑моделям. Цена за это — latency: модель «думает» 5–30 секунд на запрос.

Старт — DeepSeek‑R1‑0528‑Qwen3‑8B через Ollama. Помещается на любой GPU от 16 ГБ (RTX 3090, A10), запускается одной командой. Если нужен лучший outcome — Distill‑Qwen‑32B на A100 80 ГБ. Полный 671B флагман — только если есть 8× H200/A100.

Да. Все веса (671B и distill 1.5B–70B) лицензированы под MIT License — можно встраивать в продукт, продавать, модифицировать, дистиллировать в свою модель. Distill‑версии на основе Llama 3 наследуют также Llama 3.x license (нужно соблюдать обе).

В bf16 — нет (нужно ~66 ГБ). В Q4_K_M (~18 ГБ) — да, с большим запасом под контекст 32K. На A100 80 ГБ — bf16 без компромиссов плюс длинный контекст. RTX 4090 48 ГБ — лучший вариант под Q4‑инференс. См. отдельный лендинг.

MoE‑архитектура (37B активных параметров) даёт ~1.4 ТБ в bf16 — это 8× H200 141 ГБ или 16× A100 80 ГБ. В Q4 модель занимает ~404 ГБ — реалистично на 8× A100 80 ГБ или 6× H100 80 ГБ. Unsloth выпустила 1.58‑bit dynamic quant, который вмещается в ~140 ГБ — то есть в 2× H100/H200 или 1× B200.

Базовый R1 (671B) — да, контекст из китайского и английского, русский на уровне Llama 3.3 70B. Distill‑версии на Qwen2.5 (7B/14B/32B) — лучше по русскому, чем Llama‑distill. Для серьёзного делового русского используй Distill‑Qwen‑32B или гибрид: распознавание на R1, генерация на Qwen3‑32B.

Сервер готов за 3–5 минут после оплаты. Дальше — установка vLLM или Ollama (~2 минуты), скачивание весов с Hugging Face: 8B distill — 1–2 минуты, 70B distill — 5–10 минут, 671B — 30–60 минут на 1 Гбит/с. Итого 5–15 минут до первого токена для distill, ~1 час для флагмана. Детали SSH‑подключения — в инструкции.

В vLLM и SGLang это делается флагом --reasoning-parser deepseek_r1. Парсер достаёт содержимое <think>...</think> в отдельное поле reasoning ответа, а итоговый текст возвращает в content. Удобно для агентов: цепочка мыслей идёт в лог, ответ — в UI.

Нет. Мы запускаем open‑weight веса локально на серверах в РФ (Самарская обл.). Модель не отправляет данные наружу — это просто файл с коэффициентами. Если нужен полный изолированный контур — поддержка настроит VPC‑подключение.

Платите за каждую секунду работы сервера. Остановили сервер — счётчик замер, диск сохраняется отдельно (~2 ₽/час за 256 ГБ). Неиспользованный остаток возвращается на баланс. Для эксперимента с 671B разумно брать 8× H100 на 4–6 часов и сразу гасить.

Для нагрузок выше 2–5 млн токенов в день self‑host R1 на A100 80 ГБ выгоднее API o1 в 5–15×. Для маленьких объёмов API дешевле. Точку безубыточности легко посчитать: цена o1 ≈ $15/1M output tokens, цена A100 у нас — посекундно.

Да. Работаем с ООО/ИП по договору, оплата по счёту, НДС, ЭДО через Диадок/СБИС. В блоке «Тестовый период для бизнеса» — оператор и ID для ЭДО.

DeepSeek R1 на вашем GPU
От 168 ₽/час, посекундная оплата.

Оплата в рублях, посекундно. Поддержка 24/7. Запуск за 5 минут.