Аренда GPU для Mistral Small 3.2 — от 79 ₽/час

Как арендовать сервер с RTX 4090

От регистрации до запуска — меньше 10 минут. Без звонков менеджеру и подписания договоров.

1

Соберите сервер

Выберите GPU, объем диска, операционную систему и тариф в конфигураторе.

2

Создайте аккаунт

Простая регистрация через Яндекс-ID, Т-Банк или электронную почту.

3

Пополните баланс

Картой или по счёту для юрлиц. Средства зачисляются мгновенно.

Запустите сервер

И он будет готов через пару минут. Подключайтесь по SSH, RDP или прямо в браузере.

Платите только за время

Остановите сервер в любой момент и неиспользованные деньги вернутся на баланс.

Скидки за долгий срок аренды

При аренде от 3-х месяцев вы получаете скидку от 5% до 25%.

Смена конфига на лету

Начните с CPU‑сервера, затем подключите GPU для тяжёлых задач.

Собрать сервер

Какую версию выбрать

Флагман

Mistral‑Small‑3.2‑24B‑Instruct‑2506 (bf16)

24BDense · Multimodal

Полные веса в bf16. Понимает текст и изображения нативно. Контекст 128K, function calling, JSON-mode. Apache 2.0.

VRAM (bf16):: ~55 ГБ
VRAM (4-bit):: ~14 ГБ

A100 80 ГБ (bf16) / RTX 4090 48 ГБ (FP8/Q8)

Mistral‑Small‑3.2‑24B Q8 (GGUF)

24BDense · 8‑bit

Квантизация Q8_0 — практически без потерь качества. Идеальный баланс для одной RTX 4090 48 ГБ с большим контекстом.

VRAM (bf16):: —
VRAM (4-bit):: ~26 ГБ

RTX 4090 48 ГБ (с запасом под контекст и vision)

Mistral‑Small‑3.2‑24B Q4_K_M (GGUF)

24BDense · 4‑bit

Q4_K_M — sweet-spot 4-bit. Влезает на любую 24 ГБ GPU с запасом под контекст. Минимальная просадка качества.

VRAM (bf16):: —
VRAM (4-bit):: ~14 ГБ

RTX 3090 / RTX 4090 24 ГБ / A10 (24 ГБ)

Mistral‑Small‑3.2‑24B FP8 / NVFP4

24BDense · FP8

FP8/NVFP4-сборка от Red Hat AI. Нативная поддержка на Hopper (H100) и Ada Lovelace. Скорость как у Q4 при качестве bf16.

VRAM (bf16):: ~28 ГБ
VRAM (4-bit):: —

RTX 4090 48 ГБ / H100 80 ГБ (нативный FP8)

4 способа запуска

Запустите одной командой

После создания сервера подключитесь по SSH и выберите подходящий инструмент.

Рекомендуемый рантайм от Mistral. PagedAttention, tensor parallelism, OpenAI‑совместимый API. Поддержка vision и tool-calling из коробки. Требуется vLLM ≥ 0.9.x.

# В Ubuntu 24 системный Python — managed, ставим в venv:
python3 -m venv /opt/vllm && source /opt/vllm/bin/activate
pip install 'vllm>=0.9.0' 'mistral-common>=1.5.5'
vllm serve mistralai/Mistral-Small-3.2-24B-Instruct-2506 \
  --tokenizer_mode mistral \
  --config_format mistral \
  --load_format mistral \
  --tool-call-parser mistral \
  --enable-auto-tool-choice \
  --limit_mm_per_prompt 'image=10' \
  --max-model-len 131072 \
  --gpu-memory-utilization 0.90

Самый быстрый старт. Ollama сама скачает Q4‑веса (~14 ГБ), поднимет API на 11434. Подходит для локальных экспериментов и тестов.

curl -fsSL https://ollama.com/install.sh | sh
ollama serve &
# Mistral Small 3.2 24B в Q4 (по умолчанию):
ollama run mistral-small3.2:24b
# Или явно с большим контекстом:
OLLAMA_CONTEXT_LENGTH=32768 ollama run mistral-small3.2:24b

Для тонкого контроля над квантизацией (Q4_K_M, Q5_K_M, Q6_K, Q8_0). OpenAI‑совместимый llama-server. Лучший вариант для гибридного CPU+GPU инференса.

# Установка (Ubuntu 24.04, CUDA 12.x, CMake-сборка)
apt-get update && apt-get install -y git cmake build-essential
export PATH=/usr/local/cuda/bin:$PATH
git clone https://github.com/ggml-org/llama.cpp && cd llama.cpp
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j
# Скачать GGUF Q4_K_M (~14 ГБ) с HuggingFace:
hf download bartowski/mistralai_Mistral-Small-3.2-24B-Instruct-2506-GGUF \
  Mistral-Small-3.2-24B-Instruct-2506-Q4_K_M.gguf --local-dir .
# Запуск сервера:
./build/bin/llama-server \
  -m Mistral-Small-3.2-24B-Instruct-2506-Q4_K_M.gguf \
  -c 32768 -ngl 999 --host 0.0.0.0 --port 8080 --jinja

Hugging Face Transformers для исследований и fine‑tuning. Подходит для batch‑инференса и интеграции с PEFT/LoRA.

python3 -m venv /opt/hf && source /opt/hf/bin/activate
pip install 'transformers>=4.50' 'mistral-common>=1.5.5' \
  torch accelerate bitsandbytes
hf auth login  # требуется approval на HF
python3 -c "
from transformers import pipeline
pipe = pipeline(
  'image-text-to-text',
  model='mistralai/Mistral-Small-3.2-24B-Instruct-2506',
  torch_dtype='bfloat16', device_map='auto'
)
print(pipe('Опиши преимущества open-source LLM'))
"

Запустить Mistral Small 3.2

~79 ₽/час · посекундная оплата

Выберите конфигурацию сервера

Укажите параметры и запустите сервер за несколько минут

Тестовый запуск

Тестовый период
для бизнеса

Мы уверены в железе — поэтому даём потестировать до покупки.
Подключитесь по ЭДО, напишите нам, и мы обсудим условия тестового запуска.

Как получить:

1 Подключитесь к нам по ЭДО
2 Напишите нам
3 Получите сервер с RTX 4090

Данные для подключения по ЭДО:

Оператор: АО «Калуга Астрал»

ID: 2AEE383BDF8-E70C-4F74-9E7E-995E8AC21999

Написать нам

Почему арендуют у нас

Серверы работают , мы следим

Мониторинг оборудования 24/7. Неисправный компонент заменим по гарантии без доплат.

Платите только за вычисления

Посекундная тарификация. Выключили сервер — счётчик остановился, данные на диске сохраняются. Скидки до 25% при оплате за 12 месяцев.

Поддержка, а не тикет-система

Сразу инженер, который разбирается в CUDA, PyTorch и настройке GPU-серверов. Ответ — до 15 минут.

Вопросы и ответы

В bf16 модель занимает ~55 ГБ VRAM — оптимально на A100 80 ГБ с запасом под контекст 128K и vision. На RTX 4090 48 ГБ запускается в FP8 (~28 ГБ) или Q8 (~26 ГБ) практически без потерь качества.

Да, в Q4_K_M квантизации (~14 ГБ) — комфортно с запасом под контекст 32K и KV-cache. Если нужен полный контекст 128K или vision на 10 изображениях — лучше RTX 4090 48 ГБ или A100 80 ГБ.

Да. Модель выпущена под Apache 2.0 — можно встраивать в продукт, продавать, модифицировать, дообучать без royalty. В отличие от Mistral Medium / Large (которые проприетарные), Small 3.2 — полностью open-weight.

Три ключевых улучшения: (1) function calling стал намного стабильнее, (2) сильно меньше повторов и зацикливаний (Wildbench v2: 55.6 → 65.33%), (3) выше точность кода (HumanEval+: 88.99 → 92.90%). Архитектура и vision не менялись — обновление инкрементальное.

Да, модель тренировалась на десятках языков, русский — один из основных. Качество сопоставимо с Qwen3‑32B и Llama 3.3 70B на русскоязычных задачах. Для специфических доменов (право, медицина) рекомендуется fine-tuning.

Модель multimodal нативно — принимает текст и изображения в одном промпте, до 10 картинок за запрос. ChartQA 87.4%, DocVQA 94.86%. Запуск через vLLM: флаг --limit_mm_per_prompt 'image=10'. OCR-конвейер не нужен.

Сервер готов за 3–5 минут после оплаты. Дальше — установка vLLM или Ollama (~2 минуты), скачивание весов с HuggingFace (14–55 ГБ, 1–5 минут на гигабитном канале). Итого 5–10 минут до первого токена. Детали подключения по SSH — в инструкции.

Платите за каждую секунду работы сервера. Остановили сервер — счётчик замер, диск сохраняется отдельно (~2 ₽/час за 256 ГБ). Неиспользованный остаток возвращается на баланс.

Да. Работаем с ООО/ИП по договору, оплата по счёту, НДС, ЭДО через Диадок/СБИС. В блоке «Тестовый период для бизнеса» — оператор и ID для ЭДО.

Запустите vLLM с флагами --tool-call-parser mistral --enable-auto-tool-choice. Дальше OpenAI‑совместимый API принимает поле tools в /v1/chat/completions, и модель сама решает, когда вызывать функцию. Parallel calls поддерживаются нативно.

Mistral Small 3.2 на вашем GPU
От 79 ₽/час, посекундная оплата.

Оплата в рублях, посекундно. Поддержка 24/7. Запуск за 5 минут.

Получить сервер Написать нам

Аренда GPU для Mistral Small 3.2
запуск за 5 минут,
от 79 ₽/час

Популярные задачи наших клиентов

Чат-ассистент и инструкции

Function calling и агенты

Генерация и ревью кода

Как арендовать сервер с RTX 4090

Соберите сервер

Создайте аккаунт

Пополните баланс

Запустите сервер

Платите только за время

Скидки за долгий срок аренды

Смена конфига на лету

Какую версию выбрать

Mistral‑Small‑3.2‑24B‑Instruct‑2506 (bf16)

Mistral‑Small‑3.2‑24B Q8 (GGUF)

Mistral‑Small‑3.2‑24B Q4_K_M (GGUF)

Mistral‑Small‑3.2‑24B FP8 / NVFP4

Запустите одной командой

Выберите конфигурацию сервера

Тестовый период
для бизнеса

Почему арендуют у нас

Серверы работают , мы следим

Платите только за вычисления

Поддержка, а не тикет-система

Вопросы и ответы

Mistral Small 3.2 на вашем GPU
От 79 ₽/час, посекундная оплата.

Аренда GPU для Mistral Small 3.2 запуск за 5 минут, от 79 ₽/час

Популярные задачи наших клиентов

Чат-ассистент и инструкции

Function calling и агенты

Генерация и ревью кода

Как арендовать сервер с RTX 4090

Соберите сервер

Создайте аккаунт

Пополните баланс

Запустите сервер

Платите только за время

Скидки за долгий срок аренды

Смена конфига на лету

Какую версию выбрать

Mistral‑Small‑3.2‑24B‑Instruct‑2506 (bf16)

Mistral‑Small‑3.2‑24B Q8 (GGUF)

Mistral‑Small‑3.2‑24B Q4_K_M (GGUF)

Mistral‑Small‑3.2‑24B FP8 / NVFP4

Запустите одной командой

Выберите конфигурацию сервера

Тестовый период для бизнеса

Почему арендуют у нас

Серверы работают , мы следим

Платите только за вычисления

Поддержка, а не тикет-система

Вопросы и ответы

Какой GPU нужен для Mistral Small 3.2 в полных весах (bf16)?

Влезет ли Mistral Small 3.2 на одну RTX 4090 24 ГБ?

Можно использовать Mistral Small 3.2 в коммерческом продукте?

Что нового в Mistral Small 3.2 по сравнению с 3.1?

Mistral Small 3.2 нормально работает с русским?

Как работает vision в Mistral Small 3.2?

Сколько длится запуск сервера?

Посекундная оплата — как это работает?

Можно с юрлица, с закрывающими документами?

Как настроить function calling через vLLM?

Mistral Small 3.2 на вашем GPU От 79 ₽/час, посекундная оплата.

Аренда GPU для Mistral Small 3.2
запуск за 5 минут,
от 79 ₽/час

Тестовый период
для бизнеса

Mistral Small 3.2 на вашем GPU
От 79 ₽/час, посекундная оплата.