Meta · Llama 4 Community License · open-weight

Аренда GPU для Llama 4 Scout
запуск за 5 минут,
от 168 ₽/час

MoE 17B активных / 109B total, 16 экспертов, контекст 10M токенов. Влезает на одну A100 80GB или H100 в Q4. Vision из коробки.

Серверы в РФ (Самарская обл.) Оплата картой РФ, СБП, по счёту

Популярные задачи наших клиентов

Long-context: код, репозитории, документы

Контекст 10M токенов — самый большой среди open-weight моделей. Анализ целых репозиториев, длинных PDF, многочасовых транскриптов без RAG.

Multilingual chat и ассистенты

Pretrain на 40T токенов, 200+ языков, включая русский. Один из лучших open-weight LLM по качеству на не-английском языке в 2025.

Vision: документы, диаграммы, OCR

Native multimodality через early fusion и MetaCLIP. До 5 изображений на запрос. Image reasoning, captioning, analysis без отдельного OCR.

Другая задача? Напишите нам — подберём конфигурацию.

4 шага до запуска

Как арендовать сервер с Tesla A100

От регистрации до запуска — меньше 10 минут. Без звонков менеджеру и подписания договоров.

1

Соберите сервер

Выберите GPU, объем диска, операционную систему и тариф в конфигураторе.

2

Создайте аккаунт

Простая регистрация через Яндекс-ID, Т-Банк или электронную почту.

3

Пополните баланс

Картой или по счёту для юрлиц. Средства зачисляются мгновенно.

Запустите сервер

И он будет готов через пару минут. Подключайтесь по SSH, RDP или прямо в браузере.

Платите только за время

Остановите сервер в любой момент и неиспользованные деньги вернутся на баланс.

Скидки за долгий срок аренды

При аренде от 3-х месяцев вы получаете скидку от 5% до 25%.

Смена конфига на лету

Начните с CPU‑сервера, затем подключите GPU для тяжёлых задач.

Какую версию выбрать

ФлагманMoE

Llama-4-Scout-17B-16E-Instruct

109B total / 17B activeMoE · Instruct · Multimodal

Флагман инструкт-серии. 16 экспертов, контекст 10M токенов, нативный vision (до 5 изображений). Q4 влезает в одну H100/A100 80 ГБ.

VRAM (bf16):
~220 ГБ (multi-GPU)
VRAM (4-bit):
~55–65 ГБ

H100 80 ГБ (Q4 / int4) / A100 80 ГБ (Q4)

MoE

Llama-4-Scout-17B-16E (base)

109B total / 17B activeMoE · Base · Multimodal

Базовая (pretrained) версия без RLHF. Подходит для fine-tuning под доменные задачи и custom alignment.

VRAM (bf16):
~220 ГБ (multi-GPU)
VRAM (4-bit):
~55–65 ГБ

H100 80 ГБ / A100 80 ГБ (Q4)

MoE

Llama 4 Scout · GGUF Q4_K_M

109B / 17B activeMoE · GGUF · CPU+GPU

Unsloth Dynamic GGUF в Q4_K_M. Запускается через llama.cpp, поддерживает GPU offload. Удобный вариант для смешанной CPU+GPU инференции.

VRAM (bf16):
VRAM (4-bit):
~55 ГБ

A100 80 ГБ (offload OK) / 2× RTX 3090

MoE

Llama 4 Scout · GGUF Q8_0 / FP16

109B / 17B activeMoE · GGUF · High-quality

Q8_0 квантизация — близко к bf16 по качеству, требует мульти-GPU. Для production-нагрузок с упором на качество и длинный контекст.

VRAM (bf16):
~220 ГБ
VRAM (4-bit):
~110 ГБ (Q8)

2× H100 80 ГБ / 2× A100 80 ГБ

4 способа запуска

Запустите одной командой

После создания сервера подключитесь по SSH и выберите подходящий инструмент.

Стандарт production inference. PagedAttention, tensor parallelism, OpenAI-совместимый API. Требуется vLLM ≥ 0.8.3 (поддержка Llama 4).

# Ubuntu 24, системный Python managed — ставим в venv:
python3 -m venv /opt/vllm && source /opt/vllm/bin/activate
pip install 'vllm>=0.8.3'
# Логин в HF (gated repo):
hf auth login
# Запуск Scout на 1× H100/A100 80GB с int4 on-the-fly:
vllm serve meta-llama/Llama-4-Scout-17B-16E-Instruct \
  --tensor-parallel-size 1 \
  --max-model-len 524288 \
  --gpu-memory-utilization 0.92 \
  --enforce-eager
Запустить Llama 4 Scout

~168 ₽/час · посекундная оплата

Выберите конфигурацию сервера

Укажите параметры и запустите сервер за несколько минут

Тестовый запуск

Тестовый период
для бизнеса

Мы уверены в железе — поэтому даём потестировать до покупки.
Подключитесь по ЭДО, напишите нам, и мы обсудим условия тестового запуска.

Как получить:

  • 1 Подключитесь к нам по ЭДО
  • 2 Напишите нам
  • 3 Получите сервер с Tesla A100

Данные для подключения по ЭДО:

Оператор: АО «Калуга Астрал»

ID: 2AEE383BDF8-E70C-4F74-9E7E-995E8AC21999

Написать нам

Почему арендуют у нас

Серверы работают , мы следим

Мониторинг оборудования 24/7. Неисправный компонент заменим по гарантии без доплат.

Платите только за вычисления

Посекундная тарификация. Выключили сервер — счётчик остановился, данные на диске сохраняются. Скидки до 25% при оплате за 12 месяцев.

Поддержка, а не тикет-система

Сразу инженер, который разбирается в CUDA, PyTorch и настройке GPU-серверов. Ответ — до 15 минут.

Вопросы и ответы

Llama 4 Scout — multimodal MoE-модель от Meta (релиз апрель 2025). 109B total / 17B active параметров, 16 экспертов, контекст до 10M токенов (рекорд среди open-weight). Нативный vision: понимает изображения и текст одновременно через early fusion. Влезает на одну H100 80 ГБ или A100 80 ГБ в Q4-квантизации.

Да, но с оговоркой. Лицензия — Llama 4 Community License, коммерческое использование разрешено. Ограничение: если у вашего сервиса >700M MAU на момент релиза модели, нужна отдельная лицензия от Meta. Для подавляющего большинства компаний это не проблема. Полный текст: llama.com/llama4/license.

В BF16 — нужно ~220 ГБ VRAM (мульти-GPU, 2× H100 или 4× A100). В Q4 (int4) — ~55–65 ГБ: влезает на одну H100 80 ГБ или A100 80 ГБ с запасом под контекст. Для длинного контекста (≥1M токенов) рекомендуем H100 — больше пропускная способность памяти.

Нет, в полном виде модель не влезет даже в Q4 (нужно ~55 ГБ). Можно запустить через llama.cpp с offload части слоёв на CPU, но скорость будет ниже. Для комфортной работы с 4090 48 ГБ выбирайте Qwen3-32B или Mistral Small 3.2 — они влезают в 48 ГБ и сопоставимы по качеству на коротком контексте.

Главное преимущество — контекст 10M токенов и нативный vision. На чистых reasoning-бенчмарках (MMLU-Pro, GPQA) Qwen 3-32B и DeepSeek V3 идут вровень или впереди. Но если задача — анализ длинных документов, целых репозиториев или мультимодальный ввод — Scout вне конкуренции в open-weight.

Сервер готов за 3–5 минут после оплаты. Установка vLLM или Ollama (~2 минуты), скачивание весов с Hugging Face (~210 ГБ для bf16, ~55 ГБ для Q4 GGUF, 5–15 минут на гигабитном канале). Итого 10–25 минут до первого токена. Подключение по SSH — в инструкции.

Да. Scout — нативно мультимодальная модель, поддерживает до 5 изображений на запрос. Через vLLM и Ollama картинки передаются стандартным OpenAI-совместимым полем image_url в messages. Image reasoning, captioning, OCR, анализ документов и диаграмм — всё работает без отдельного pipeline.

Нет. Модель запускается локально на вашем сервере в нашем дата-центре в РФ (Самарская обл.). Веса open-weight, никаких phone-home или телеметрии. Если нужен полностью изолированный контур — поддержка настроит VPC.

Платите за каждую секунду работы сервера. Остановили инстанс — счётчик встал, диск с моделью сохраняется отдельно (~2 ₽/час за 256 ГБ). Неиспользованный остаток возвращается на баланс. Удобно для batch-нагрузок: запустил, обработал, остановил.

Для большинства задач (chat, code, vision) — хватит prompt и few-shot. Fine-tuning имеет смысл при: узкой доменной специфике (медицина, юриспруденция), нужен кастомный стиль, качество выше instruct-версии. QLoRA на H100 80 ГБ под Scout — ~71 ГБ VRAM, через Unsloth — в 2× быстрее.

Да. Работаем с ООО/ИП по договору, оплата по счёту, НДС, ЭДО через Диадок/СБИС. В блоке «Тестовый период для бизнеса» оставьте контакты — мы свяжемся и оформим документы за день.

Llama 4 Scout на вашем GPU
От 168 ₽/час, посекундная оплата.

Оплата в рублях, посекундно. Поддержка 24/7. Запуск за 5 минут.