Question 1

Что такое llama.cpp и чем отличается от vLLM?

Accepted Answer

llama.cpp — C++ движок инференса от ggml.ai с форматом GGUF и квантизацией Q2–Q8. Главное отличие от vLLM: минимальный footprint и поддержка CPU/GPU‑гибридного инференса. vLLM выжимает больше throughput на production multi‑GPU, llama.cpp выигрывает на low‑VRAM, edge и квантизованных моделях. Подробнее — сравнение на Qwen.

Question 2

Какая лицензия и можно ли использовать в коммерческом продукте?

Accepted Answer

llama.cpp лицензирован под MIT — разрешено любое коммерческое использование, модификация, встраивание в продукт без роялти. Лицензия конкретной модели (Llama, Qwen, DeepSeek) проверяется отдельно: почти все open‑weight модели — Apache 2.0 или Llama Community License.

Question 3

Какой GPU нужен под llama.cpp?

Accepted Answer

Минимум — любая GPU с CUDA 12+ (NVIDIA), ROCm 6+ (AMD) или Vulkan‑драйвером. Под 7B Q4 хватит A10 24 ГБ или RTX 3090. Под 70B Q4 — RTX 4090 48 ГБ или A100 80 ГБ. Для 405B Q4 нужно 2×A100 80 ГБ с tensor parallel.

Question 4

Что такое GGUF и где брать готовые квантизации?

Accepted Answer

GGUF (GGML Universal Format) — единый формат весов с токенизатором и метаданными в одном файле. Готовые квантизации — на Hugging Face: репозитории bartowski/*, TheBloke/*, unsloth/*. Свою модель конвертируете скриптом convert_hf_to_gguf.py из репозитория llama.cpp.

Question 5

Какую квантизацию выбрать — Q4, Q5, Q8?

Accepted Answer

Q4_K_M — дефолтный выбор: ~75% сжатия при минимальной потере качества (perplexity +1‑2%). Q5_K_M — если есть запас VRAM и нужна точность ближе к bf16. Q8_0 — почти без потерь, но выигрыш по памяти в 2× против fp16. Q2_K и IQ‑квантизации — когда экономия памяти критична (mobile, edge).

Question 6

llama‑server совместим с OpenAI SDK?

Accepted Answer

Да. llama‑server отдаёт /v1/chat/completions, /v1/completions, /v1/embeddings в формате OpenAI. Подключается через openai.OpenAI(base_url="http://server:8080/v1") без правок. Работает с LangChain, LlamaIndex, Haystack, n8n, Continue.dev и любыми клиентами OpenAI.

Question 7

Как ускорить инференс на multi‑GPU?

Accepted Answer

С build b8738 (апрель 2026) llama.cpp поддерживает tensor parallelism через Split Mode Graph. Запуск с флагом --split-mode row или --tensor-split распределяет compute‑граф между GPU — до 3‑4× ускорение против layer‑split. Для максимального throughput multi‑user всё ещё выгоднее vLLM или SGLang.

Question 8

Speculative decoding — стоит включать?

Accepted Answer

Зависит от модели и железа. Дает прирост на dense‑моделях 30B+ с маленьким draft‑моделем (1‑3B). Не даёт прироста на MoE (Qwen3 30B‑A3B) и на потребительских GPU — проверяйте через llama-bench. Включается флагом --draft-model.

Question 9

Сколько длится запуск llama.cpp?

Accepted Answer

Сервер на Intelion готов за 3‑5 минут после оплаты. Сборка llama.cpp из исходников с CUDA — 2‑4 минуты на A100. Готовый Docker‑образ — 30 секунд. Скачивание GGUF (5‑40 ГБ) с HF — 1‑5 минут. Итого 5‑10 минут до первого токена. Инструкция — тут.

Question 10

Можно с юрлица, с закрывающими документами?

Accepted Answer

Да. Работаем с ООО/ИП по договору, оплата по счёту, НДС, ЭДО через Диадок/СБИС. Тестовый период для бизнеса — оператор и ID для ЭДО указаны в форме на этой же странице.

Question 11

Когда llama.cpp выгоднее, чем vLLM или SGLang?

Accepted Answer

llama.cpp выгоден: квантизованные модели (Q2‑Q8), low‑VRAM (одна 24‑48 ГБ GPU), edge‑деплой, гибрид CPU + GPU, partial offload для моделей больше VRAM. vLLM/SGLang выгоднее: production multi‑user с высоким throughput, длинный контекст 200K+, fp16/fp8 без квантизации. Для оценки запустите llama-bench и сравните токены/сек.

Аренда GPU для llama.cpp
запуск за 5 минут,
от 168 ₽/час

Популярные задачи наших клиентов

Edge inference и low‑VRAM деплой

Деплой GGUF‑квантизованных моделей

Multi‑GPU инференс 70B+ моделей

Как арендовать сервер с Tesla A100

Соберите сервер

Создайте аккаунт

Пополните баланс

Запустите сервер

Платите только за время

Скидки за долгий срок аренды

Смена конфига на лету

Что умеет llama.cpp

GGUF — единый формат весов

Квантизация Q2–Q8 (k‑quants, IQ, NVFP4)

CUDA backend для NVIDIA

llama‑server — OpenAI‑compatible API

Metal, ROCm, Vulkan, MUSA, SYCL

Speculative decoding и tensor parallel

llama‑bench — встроенный профайлер

Partial offload и mmap

Запустите одной командой

Выберите конфигурацию сервера

Тестовый период
для бизнеса

Почему арендуют у нас

Серверы работают , мы следим

Платите только за вычисления

Поддержка, а не тикет-система

Вопросы и ответы

llama.cpp на вашем GPU
От 168 ₽/час, посекундная оплата.

Аренда GPU для llama.cpp запуск за 5 минут, от 168 ₽/час

Популярные задачи наших клиентов

Edge inference и&nbsp;low‑VRAM деплой

Деплой GGUF‑квантизованных моделей

Multi‑GPU инференс 70B+ моделей

Как арендовать сервер с Tesla A100

Соберите сервер

Создайте аккаунт

Пополните баланс

Запустите сервер

Платите только за время

Скидки за долгий срок аренды

Смена конфига на лету

Что умеет llama.cpp

GGUF — единый формат весов

Квантизация Q2–Q8 (k‑quants, IQ, NVFP4)

CUDA backend для NVIDIA

llama‑server — OpenAI‑compatible API

Metal, ROCm, Vulkan, MUSA, SYCL

Speculative decoding и&nbsp;tensor parallel

llama‑bench — встроенный профайлер

Partial offload и&nbsp;mmap

Запустите одной командой

Выберите конфигурацию сервера

Тестовый период для бизнеса

Почему арендуют у нас

Серверы работают , мы следим

Платите только за вычисления

Поддержка, а не тикет-система

Вопросы и ответы

Что такое llama.cpp и&nbsp;чем отличается от&nbsp;vLLM?

Какая лицензия и&nbsp;можно&nbsp;ли использовать в&nbsp;коммерческом продукте?

Какой GPU нужен под&nbsp;llama.cpp?

Что такое GGUF и&nbsp;где брать готовые квантизации?

Какую квантизацию выбрать&nbsp;— Q4, Q5, Q8?

llama‑server совместим с&nbsp;OpenAI SDK?

Как ускорить инференс на&nbsp;multi‑GPU?

Speculative decoding&nbsp;— стоит включать?

Сколько длится запуск llama.cpp?

Можно с&nbsp;юрлица, с&nbsp;закрывающими документами?

Когда llama.cpp выгоднее, чем&nbsp;vLLM или SGLang?

llama.cpp на вашем GPU От 168 ₽/час, посекундная оплата.

Аренда GPU для llama.cpp
запуск за 5 минут,
от 168 ₽/час

Edge inference и low‑VRAM деплой

Speculative decoding и tensor parallel

Partial offload и mmap

Тестовый период
для бизнеса

llama.cpp на вашем GPU
От 168 ₽/час, посекундная оплата.