Mistral AI · Apache 2.0 · open-weight · multimodal

Аренда GPU для Mistral Small 3.2
запуск за 5 минут,
от 79 ₽/час

24B параметров, multimodal (текст + vision), контекст 128K, Apache 2.0. Сильный function calling и structured output. Влезает на одну RTX 4090 48 ГБ в Q8 без потерь.

Серверы в РФ (Самарская обл.) Оплата картой РФ, СБП, по счёту

Популярные задачи наших клиентов

Чат-ассистент и инструкции

Wildbench v2 вырос с 55.6% до 65.33%. Заметно меньше повторов и зацикливаний на длинных диалогах. Идеален под замену ChatGPT в контуре.

Function calling и агенты

Один из ключевых апгрейдов 3.2 — стабильный native tool-calling. Нативная поддержка parallel function calls, без галлюцинаций аргументов.

Генерация и ревью кода

HumanEval+ вырос с 88.99% до 92.90%, MBPP Pass@5 — с 74.63% до 78.33%. Хорош для middleware-кода, ревью PR, рефакторинга.

Другая задача? Напишите нам — подберём конфигурацию.

4 шага до запуска

Как арендовать сервер с RTX 4090

От регистрации до запуска — меньше 10 минут. Без звонков менеджеру и подписания договоров.

1

Соберите сервер

Выберите GPU, объем диска, операционную систему и тариф в конфигураторе.

2

Создайте аккаунт

Простая регистрация через Яндекс-ID, Т-Банк или электронную почту.

3

Пополните баланс

Картой или по счёту для юрлиц. Средства зачисляются мгновенно.

Запустите сервер

И он будет готов через пару минут. Подключайтесь по SSH, RDP или прямо в браузере.

Платите только за время

Остановите сервер в любой момент и неиспользованные деньги вернутся на баланс.

Скидки за долгий срок аренды

При аренде от 3-х месяцев вы получаете скидку от 5% до 25%.

Смена конфига на лету

Начните с CPU‑сервера, затем подключите GPU для тяжёлых задач.

Какую версию выбрать

Флагман

Mistral‑Small‑3.2‑24B‑Instruct‑2506 (bf16)

24BDense · Multimodal

Полные веса в bf16. Понимает текст и изображения нативно. Контекст 128K, function calling, JSON-mode. Apache 2.0.

VRAM (bf16):
~55 ГБ
VRAM (4-bit):
~14 ГБ

A100 80 ГБ (bf16) / RTX 4090 48 ГБ (FP8/Q8)

Mistral‑Small‑3.2‑24B Q8 (GGUF)

24BDense · 8‑bit

Квантизация Q8_0 — практически без потерь качества. Идеальный баланс для одной RTX 4090 48 ГБ с большим контекстом.

VRAM (bf16):
VRAM (4-bit):
~26 ГБ

RTX 4090 48 ГБ (с запасом под контекст и vision)

Mistral‑Small‑3.2‑24B Q4_K_M (GGUF)

24BDense · 4‑bit

Q4_K_M — sweet-spot 4-bit. Влезает на любую 24 ГБ GPU с запасом под контекст. Минимальная просадка качества.

VRAM (bf16):
VRAM (4-bit):
~14 ГБ

RTX 3090 / RTX 4090 24 ГБ / A10 (24 ГБ)

Mistral‑Small‑3.2‑24B FP8 / NVFP4

24BDense · FP8

FP8/NVFP4-сборка от Red Hat AI. Нативная поддержка на Hopper (H100) и Ada Lovelace. Скорость как у Q4 при качестве bf16.

VRAM (bf16):
~28 ГБ
VRAM (4-bit):

RTX 4090 48 ГБ / H100 80 ГБ (нативный FP8)

4 способа запуска

Запустите одной командой

После создания сервера подключитесь по SSH и выберите подходящий инструмент.

Рекомендуемый рантайм от Mistral. PagedAttention, tensor parallelism, OpenAI‑совместимый API. Поддержка vision и tool-calling из коробки. Требуется vLLM ≥ 0.9.x.

# В Ubuntu 24 системный Python — managed, ставим в venv:
python3 -m venv /opt/vllm && source /opt/vllm/bin/activate
pip install 'vllm>=0.9.0' 'mistral-common>=1.5.5'
vllm serve mistralai/Mistral-Small-3.2-24B-Instruct-2506 \
  --tokenizer_mode mistral \
  --config_format mistral \
  --load_format mistral \
  --tool-call-parser mistral \
  --enable-auto-tool-choice \
  --limit_mm_per_prompt 'image=10' \
  --max-model-len 131072 \
  --gpu-memory-utilization 0.90
Запустить Mistral Small 3.2

~79 ₽/час · посекундная оплата

Выберите конфигурацию сервера

Укажите параметры и запустите сервер за несколько минут

Тестовый запуск

Тестовый период
для бизнеса

Мы уверены в железе — поэтому даём потестировать до покупки.
Подключитесь по ЭДО, напишите нам, и мы обсудим условия тестового запуска.

Как получить:

  • 1 Подключитесь к нам по ЭДО
  • 2 Напишите нам
  • 3 Получите сервер с RTX 4090

Данные для подключения по ЭДО:

Оператор: АО «Калуга Астрал»

ID: 2AEE383BDF8-E70C-4F74-9E7E-995E8AC21999

Написать нам

Почему арендуют у нас

Серверы работают , мы следим

Мониторинг оборудования 24/7. Неисправный компонент заменим по гарантии без доплат.

Платите только за вычисления

Посекундная тарификация. Выключили сервер — счётчик остановился, данные на диске сохраняются. Скидки до 25% при оплате за 12 месяцев.

Поддержка, а не тикет-система

Сразу инженер, который разбирается в CUDA, PyTorch и настройке GPU-серверов. Ответ — до 15 минут.

Вопросы и ответы

В bf16 модель занимает ~55 ГБ VRAM — оптимально на A100 80 ГБ с запасом под контекст 128K и vision. На RTX 4090 48 ГБ запускается в FP8 (~28 ГБ) или Q8 (~26 ГБ) практически без потерь качества.

Да, в Q4_K_M квантизации (~14 ГБ) — комфортно с запасом под контекст 32K и KV-cache. Если нужен полный контекст 128K или vision на 10 изображениях — лучше RTX 4090 48 ГБ или A100 80 ГБ.

Да. Модель выпущена под Apache 2.0 — можно встраивать в продукт, продавать, модифицировать, дообучать без royalty. В отличие от Mistral Medium / Large (которые проприетарные), Small 3.2 — полностью open-weight.

Три ключевых улучшения: (1) function calling стал намного стабильнее, (2) сильно меньше повторов и зацикливаний (Wildbench v2: 55.6 → 65.33%), (3) выше точность кода (HumanEval+: 88.99 → 92.90%). Архитектура и vision не менялись — обновление инкрементальное.

Да, модель тренировалась на десятках языков, русский — один из основных. Качество сопоставимо с Qwen3‑32B и Llama 3.3 70B на русскоязычных задачах. Для специфических доменов (право, медицина) рекомендуется fine-tuning.

Модель multimodal нативно — принимает текст и изображения в одном промпте, до 10 картинок за запрос. ChartQA 87.4%, DocVQA 94.86%. Запуск через vLLM: флаг --limit_mm_per_prompt 'image=10'. OCR-конвейер не нужен.

Сервер готов за 3–5 минут после оплаты. Дальше — установка vLLM или Ollama (~2 минуты), скачивание весов с HuggingFace (14–55 ГБ, 1–5 минут на гигабитном канале). Итого 5–10 минут до первого токена. Детали подключения по SSH — в инструкции.

Платите за каждую секунду работы сервера. Остановили сервер — счётчик замер, диск сохраняется отдельно (~2 ₽/час за 256 ГБ). Неиспользованный остаток возвращается на баланс.

Да. Работаем с ООО/ИП по договору, оплата по счёту, НДС, ЭДО через Диадок/СБИС. В блоке «Тестовый период для бизнеса» — оператор и ID для ЭДО.

Запустите vLLM с флагами --tool-call-parser mistral --enable-auto-tool-choice. Дальше OpenAI‑совместимый API принимает поле tools в /v1/chat/completions, и модель сама решает, когда вызывать функцию. Parallel calls поддерживаются нативно.

Mistral Small 3.2 на вашем GPU
От 79 ₽/час, посекундная оплата.

Оплата в рублях, посекундно. Поддержка 24/7. Запуск за 5 минут.