Question 1

Чем vLLM отличается от Ollama и llama.cpp?

Accepted Answer

vLLM — production‑движок: PagedAttention, continuous batching, OpenAI API, tensor parallel. Throughput в 5–10× выше при многих параллельных запросах. Ollama — для разработки и одиночного использования (под капотом llama.cpp). llama.cpp — для CPU/малых GPU и GGUF квантизации. Для прод‑сервиса с нагрузкой берите vLLM.

Question 2

Какой GPU нужен для vLLM?

Accepted Answer

Зависит от модели. Для 7–8B (Qwen3‑8B, Llama 3.1 8B) — A10 24 ГБ или RTX 3090. Для 30–32B в bf16 — A100 80 ГБ; в AWQ/FP8 — RTX 4090 48 ГБ. Для 70B+ — 2× A100 с tensor parallel.

Question 3

Какие модели поддерживает vLLM?

Accepted Answer

Llama 3/4, Qwen3 (включая VL и Coder), DeepSeek V3/R1, Mistral, Gemma, Phi, Yi, GLM, Mixtral, Pixtral, Llava и десятки других. Полный список — на docs.vllm.ai/models. Если модель в HuggingFace transformers и архитектура поддержана, vLLM её запустит.

Question 4

vLLM реально OpenAI‑совместим? Можно подменить эндпоинт?

Accepted Answer

Да. vLLM реализует /v1/chat/completions, /v1/completions, /v1/embeddings, /v1/models. Меняете base_url в openai SDK на http://your-server:8000/v1 — и существующий код работает без правок. LangChain, LlamaIndex, Cline, Continue — всё совместимо.

Question 5

Как ускорить throughput на проде?

Accepted Answer

Чек‑лист: (1) FP8/AWQ‑квантизация — в 2× меньше VRAM, плюс batch. (2) Prefix caching — включён по умолчанию, режет latency для повторяющегося system prompt. (3) Speculative decoding (--speculative-config) — 1.5–3× быстрее decode. (4) Высокий --gpu-memory-utilization 0.95. (5) Для 70B — tensor parallel ≥ 2.

Question 6

Можно ли использовать vLLM коммерчески?

Accepted Answer

Да. vLLM лицензирован под Apache 2.0 — встраивайте в продукт, продавайте, модифицируйте. Лицензии моделей проверяйте отдельно: Llama (Meta), Qwen (Apache 2.0), DeepSeek (MIT/собственная), Mistral (Apache 2.0 для open‑weight).

Question 7

Сколько занимает запуск vLLM с нуля?

Accepted Answer

Сервер готов за 3–5 минут после оплаты. Установка vLLM в venv (~2 минуты), скачивание весов с HuggingFace (10–60 ГБ, 1–5 минут на гигабитном канале), прогрев CUDA‑графов (30–60 секунд). Итого 5–10 минут до первого токена. Инструкция по SSH — здесь.

Question 8

Что такое PagedAttention и зачем оно нужно?

Accepted Answer

PagedAttention — это применение виртуальной памяти ОС к KV‑cache LLM. Cache режется на блоки по 16 токенов (как страницы памяти), без контигуальности и фрагментации. Результат: экономия до 55% VRAM и batch в 2–4× больше при той же памяти. Описано в SOSP 2023, реализация vLLM.

Question 9

Поддерживает ли vLLM tool calling и reasoning?

Accepted Answer

Да. Tool calling: флаги --enable-auto-tool-choice --tool-call-parser hermes (или llama3_json, mistral, deepseek_v3, qwen3_xml). Reasoning (thinking‑mode): --reasoning-parser qwen3, deepseek_r1, glm45. Парсер отделяет блок размышлений от ответа в API‑контракте — клиент получает чистый content.

Question 10

Multi‑LoRA — как это работает?

Accepted Answer

Запускаете базовую модель + до десятков LoRA‑адаптеров на одном сервере: --enable-lora --max-loras 16 --lora-modules name1=path1 name2=path2. В запросе указываете model = имя LoRA. Адаптеры загружаются hot‑swap, без перезагрузки сервера. Один GPU обслуживает десятки клиентов SaaS.

Question 11

Посекундная оплата — как считается?

Accepted Answer

Платите за каждую секунду работы сервера. Остановили — счётчик замер, диск сохраняется отдельно (~2 ₽/час за 256 ГБ). Неиспользованный остаток возвращается на баланс. Для долгого прод‑инференса считайте месячный тариф — выходит дешевле почасового.

Question 12

Можно с юрлица, с закрывающими документами?

Accepted Answer

Да. Работаем с ООО/ИП по договору, оплата по счёту, НДС, ЭДО через Диадок/СБИС. В блоке «Тестовый период для бизнеса» — оператор и ID для ЭДО. Закрывающие — акт + счёт‑фактура раз в месяц.

Аренда GPU для vLLM
запуск за 5 минут,
от 168 ₽/час

Популярные задачи наших клиентов

Production OpenAI‑совместимый API

High‑QPS чат‑сервис

Offline batch‑инференс

Как арендовать сервер с Tesla A100

Соберите сервер

Создайте аккаунт

Пополните баланс

Запустите сервер

Платите только за время

Скидки за долгий срок аренды

Смена конфига на лету

Что умеет vLLM

PagedAttention

Continuous batching

OpenAI‑совместимый API

Tensor + Pipeline parallelism

Speculative decoding

Квантизация FP8 / AWQ / GPTQ

Tool calling и reasoning

Prefix caching и multi‑LoRA

Запустите одной командой

Выберите конфигурацию сервера

Тестовый период
для бизнеса

Почему арендуют у нас

Серверы работают , мы следим

Платите только за вычисления

Поддержка, а не тикет-система

Вопросы и ответы

vLLM на вашем GPU
От 168 ₽/час, посекундная оплата.

Аренда GPU для vLLM запуск за 5 минут, от 168 ₽/час