vLLM · Apache 2.0 · production

Аренда GPU для vLLM
запуск за 5 минут,
от 168 ₽/час

Production‑grade движок инференса LLM с PagedAttention и continuous batching. OpenAI‑совместимый API из коробки. Apache 2.0.

Серверы в РФ (Самарская обл.) Оплата картой РФ, СБП, по счёту

Популярные задачи наших клиентов

Production OpenAI‑совместимый API

Замена OpenAI API в корпоративном контуре. Существующие клиенты (LangChain, LlamaIndex, openai‑python) работают без правок кода.

High‑QPS чат‑сервис

Continuous batching + prefix caching: 50–200 одновременных диалогов на одной A100 80GB при стабильной latency. P99 < 2 сек на 32B модели.

Offline batch‑инференс

Генерация датасетов, классификация миллионов документов, evals. Класс vllm.LLM без HTTP — throughput до 20K токенов/сек.

Другая задача? Напишите нам — подберём конфигурацию.

4 шага до запуска

Как арендовать сервер с Tesla A100

От регистрации до запуска — меньше 10 минут. Без звонков менеджеру и подписания договоров.

1

Соберите сервер

Выберите GPU, объем диска, операционную систему и тариф в конфигураторе.

2

Создайте аккаунт

Простая регистрация через Яндекс-ID, Т-Банк или электронную почту.

3

Пополните баланс

Картой или по счёту для юрлиц. Средства зачисляются мгновенно.

Запустите сервер

И он будет готов через пару минут. Подключайтесь по SSH, RDP или прямо в браузере.

Платите только за время

Остановите сервер в любой момент и неиспользованные деньги вернутся на баланс.

Скидки за долгий срок аренды

При аренде от 3-х месяцев вы получаете скидку от 5% до 25%.

Смена конфига на лету

Начните с CPU‑сервера, затем подключите GPU для тяжёлых задач.

Что умеет vLLM

PagedAttention

KV‑cache как страничная память ОС: блоки по 16 токенов, без фрагментации. Экономия до 55% VRAM, batch в 2–4× больше при той же памяти.

Continuous batching

Планировщик добавляет/убирает запросы между шагами генерации без ожидания всего батча. Throughput выше в 5–10× против static batching.

OpenAI‑совместимый API

Drop‑in замена OpenAI: /v1/chat/completions, /v1/completions, embeddings. Работают openai‑python, LangChain, LlamaIndex без правок.

Tensor + Pipeline parallelism

Tensor parallel для шардинга слоёв на 2/4/8 GPU, pipeline parallel для крупных моделей через несколько узлов. Llama 4, DeepSeek V3, Qwen3.

Speculative decoding

n‑gram, EAGLE, MTP, P‑EAGLE — драфт‑модель угадывает токены вперёд. Ускорение 1.5–3× на decode без потери качества.

Квантизация FP8 / AWQ / GPTQ

FP8 на Hopper/Blackwell — качество как BF16, в 2× меньше VRAM. AWQ / GPTQ INT4 для 4090, GGUF, NVFP4, MXFP4, ModelOpt.

Tool calling и reasoning

Флаги --enable-auto-tool-choice, --tool-call-parser (hermes, llama3_json, mistral, deepseek_v3, qwen3_xml), --reasoning-parser (qwen3, deepseek_r1, glm45) — function calling и thinking‑mode.

Prefix caching и multi‑LoRA

Автоматическое кеширование префиксов (system prompt, RAG‑контекст). Hot‑swap до десятков LoRA‑адаптеров на одной модели — один сервер на всех клиентов.

4 способа запуска

Запустите одной командой

После создания сервера подключитесь по SSH и выберите подходящий инструмент.

Стандартный способ. vLLM ≥ 0.20, Python 3.11, CUDA 12.x. В Ubuntu 24 системный Python managed — ставим в venv.

python3 -m venv /opt/vllm && source /opt/vllm/bin/activate
pip install --upgrade 'vllm>=0.20.0'
vllm serve Qwen/Qwen3-32B \
  --tensor-parallel-size 1 \
  --max-model-len 32768 \
  --gpu-memory-utilization 0.90 \
  --enable-auto-tool-choice \
  --tool-call-parser hermes \
  --reasoning-parser qwen3 \
  --host 0.0.0.0 --port 8000
Запустить vLLM

~168 ₽/час · посекундная оплата

Выберите конфигурацию сервера

Укажите параметры и запустите сервер за несколько минут

Тестовый запуск

Тестовый период
для бизнеса

Мы уверены в железе — поэтому даём потестировать до покупки.
Подключитесь по ЭДО, напишите нам, и мы обсудим условия тестового запуска.

Как получить:

  • 1 Подключитесь к нам по ЭДО
  • 2 Напишите нам
  • 3 Получите сервер с Tesla A100

Данные для подключения по ЭДО:

Оператор: АО «Калуга Астрал»

ID: 2AEE383BDF8-E70C-4F74-9E7E-995E8AC21999

Написать нам

Почему арендуют у нас

Серверы работают , мы следим

Мониторинг оборудования 24/7. Неисправный компонент заменим по гарантии без доплат.

Платите только за вычисления

Посекундная тарификация. Выключили сервер — счётчик остановился, данные на диске сохраняются. Скидки до 25% при оплате за 12 месяцев.

Поддержка, а не тикет-система

Сразу инженер, который разбирается в CUDA, PyTorch и настройке GPU-серверов. Ответ — до 15 минут.

Вопросы и ответы

vLLM — production‑движок: PagedAttention, continuous batching, OpenAI API, tensor parallel. Throughput в 5–10× выше при многих параллельных запросах. Ollama — для разработки и одиночного использования (под капотом llama.cpp). llama.cpp — для CPU/малых GPU и GGUF квантизации. Для прод‑сервиса с нагрузкой берите vLLM.

Зависит от модели. Для 7–8B (Qwen3‑8B, Llama 3.1 8B) — A10 24 ГБ или RTX 3090. Для 30–32B в bf16 — A100 80 ГБ; в AWQ/FP8 — RTX 4090 48 ГБ. Для 70B+ — 2× A100 с tensor parallel.

Llama 3/4, Qwen3 (включая VL и Coder), DeepSeek V3/R1, Mistral, Gemma, Phi, Yi, GLM, Mixtral, Pixtral, Llava и десятки других. Полный список — на docs.vllm.ai/models. Если модель в HuggingFace transformers и архитектура поддержана, vLLM её запустит.

Да. vLLM реализует /v1/chat/completions, /v1/completions, /v1/embeddings, /v1/models. Меняете base_url в openai SDK на http://your-server:8000/v1 — и существующий код работает без правок. LangChain, LlamaIndex, Cline, Continue — всё совместимо.

Чек‑лист: (1) FP8/AWQ‑квантизация — в 2× меньше VRAM, плюс batch. (2) Prefix caching — включён по умолчанию, режет latency для повторяющегося system prompt. (3) Speculative decoding (--speculative-config) — 1.5–3× быстрее decode. (4) Высокий --gpu-memory-utilization 0.95. (5) Для 70B — tensor parallel ≥ 2.

Да. vLLM лицензирован под Apache 2.0 — встраивайте в продукт, продавайте, модифицируйте. Лицензии моделей проверяйте отдельно: Llama (Meta), Qwen (Apache 2.0), DeepSeek (MIT/собственная), Mistral (Apache 2.0 для open‑weight).

Сервер готов за 3–5 минут после оплаты. Установка vLLM в venv (~2 минуты), скачивание весов с HuggingFace (10–60 ГБ, 1–5 минут на гигабитном канале), прогрев CUDA‑графов (30–60 секунд). Итого 5–10 минут до первого токена. Инструкция по SSH — здесь.

PagedAttention — это применение виртуальной памяти ОС к KV‑cache LLM. Cache режется на блоки по 16 токенов (как страницы памяти), без контигуальности и фрагментации. Результат: экономия до 55% VRAM и batch в 2–4× больше при той же памяти. Описано в SOSP 2023, реализация vLLM.

Да. Tool calling: флаги --enable-auto-tool-choice --tool-call-parser hermes (или llama3_json, mistral, deepseek_v3, qwen3_xml). Reasoning (thinking‑mode): --reasoning-parser qwen3, deepseek_r1, glm45. Парсер отделяет блок размышлений от ответа в API‑контракте — клиент получает чистый content.

Запускаете базовую модель + до десятков LoRA‑адаптеров на одном сервере: --enable-lora --max-loras 16 --lora-modules name1=path1 name2=path2. В запросе указываете model = имя LoRA. Адаптеры загружаются hot‑swap, без перезагрузки сервера. Один GPU обслуживает десятки клиентов SaaS.

Платите за каждую секунду работы сервера. Остановили — счётчик замер, диск сохраняется отдельно (~2 ₽/час за 256 ГБ). Неиспользованный остаток возвращается на баланс. Для долгого прод‑инференса считайте месячный тариф — выходит дешевле почасового.

Да. Работаем с ООО/ИП по договору, оплата по счёту, НДС, ЭДО через Диадок/СБИС. В блоке «Тестовый период для бизнеса» — оператор и ID для ЭДО. Закрывающие — акт + счёт‑фактура раз в месяц.

vLLM на вашем GPU
От 168 ₽/час, посекундная оплата.

Оплата в рублях, посекундно. Поддержка 24/7. Запуск за 5 минут.