Чат-ассистент уровня GPT-4o
DeepSeek V3.2-Exp на MMLU-Pro даёт 85.0 — на уровне Claude Sonnet 4 и GPT-4o. Хорошо работает с русским. Замена ChatGPT в корпоративном контуре.
DeepSeek V3.2-Exp на MMLU-Pro даёт 85.0 — на уровне Claude Sonnet 4 и GPT-4o. Хорошо работает с русским. Замена ChatGPT в корпоративном контуре.
SWE-Bench Verified — 67.8–68.4%, LiveCodeBench — 74.1–74.9%. Уровень Claude Sonnet 4. Подходит под Cursor-like ассистенты и code-agents.
V3.1-Terminus заметно улучшила agentic-возможности (BrowseComp 38.5 vs 30.0 у V3.1). V3.2-Exp унаследовала их. Native function calling, structured output.
Другая задача? Напишите нам — подберём конфигурацию.
Флагман сентября 2025. MoE-архитектура с DeepSeek Sparse Attention (DSA). Контекст 128K. На уровне V3.1-Terminus, но дешевле в инференсе. Нативный формат FP8.
8× H100/H200 80 ГБ (FP8) или 16× A100 80 ГБ (BF16)
Динамическая 4-bit квантизация (Unsloth-style). Сжатие ~50%, потери качества <1%. Запуск через llama.cpp или ktransformers.
4–6× A100 80 ГБ или 4× H100 80 ГБ
Селективная 2-bit (MoE-слои) + 4-6 bit (attention). Самый бюджетный вариант для self-host. Latency выше, но запускается на 1–2 GPU.
2–3× A100 80 ГБ или 1× H200 141 ГБ + офлоад в RAM
Базовая модель, на которой построена V3.2-Exp. Релиз 22 сентября 2025. Гибридный reasoning, контекст 163K. Используй, если нужен thinking-mode без DSA.
8× H100/H200 (FP8) / 4× A100 (Q4)
Distill-вариант на базе Qwen2.5-32B с DeepSeek reasoning traces. AIME 2024 — 72.6% Pass@1. Apache 2.0. Помещается на одну GPU.
A100 80 ГБ (bf16) / RTX 4090 48 ГБ (Q4)
Distill на базе Llama-3.3-70B. AIME 2024 — 70.0% Pass@1. Llama-3-Community лицензия. Альтернатива R1 для одного-двух GPU.
2× A100 80 ГБ (bf16) / RTX 4090 48 ГБ (Q4)
Укажите параметры и запустите сервер за несколько минут
Мы уверены в железе — поэтому даём потестировать до покупки.
Подключитесь по ЭДО, напишите нам, и мы обсудим условия тестового запуска.
Как получить:
Данные для подключения по ЭДО:
Оператор: АО «Калуга Астрал»
ID: 2AEE383BDF8-E70C-4F74-9E7E-995E8AC21999
Мониторинг оборудования 24/7. Неисправный компонент заменим по гарантии без доплат.
Посекундная тарификация. Выключили сервер — счётчик остановился, данные на диске сохраняются. Скидки до 25% при оплате за 12 месяцев.
Сразу инженер, который разбирается в CUDA, PyTorch и настройке GPU-серверов. Ответ — до 15 минут.
Оплата в рублях, посекундно. Поддержка 24/7. Запуск за 5 минут.