ggml.ai · MIT · CPU/GPU GGUF

Аренда GPU для llama.cpp
запуск за 5 минут,
от 168 ₽/час

Лёгкий C++ движок инференса с GGUF и квантизацией Q2–Q8. llama‑server отдаёт OpenAI‑совместимый API на CUDA, Metal, ROCm и Vulkan.

Серверы в РФ (Самарская обл.) Оплата картой РФ, СБП, по счёту

Популярные задачи наших клиентов

Edge inference и low‑VRAM деплой

Q4_K_M квантизация ужимает 7B до 4 ГБ, 13B до 8 ГБ. Запускается на A10 24 ГБ, RTX 3090, MacBook Pro M‑series. Privacy‑sensitive контуры без интернета.

Деплой GGUF‑квантизованных моделей

Любая модель с Hugging Face конвертируется в GGUF одним скриптом. Готовые квантизации от TheBloke, bartowski, unsloth. Один файл — и модель работает на CPU, NVIDIA, AMD или Apple.

Multi‑GPU инференс 70B+ моделей

Tensor parallel (build b8738+) распределяет compute‑граф между GPU. Llama 3.3 70B Q4 на двух A100 80 ГБ — до 3‑4× быстрее layer‑split режима. Подходит для production inference 70B–405B.

Другая задача? Напишите нам — подберём конфигурацию.

4 шага до запуска

Как арендовать сервер с Tesla A100

От регистрации до запуска — меньше 10 минут. Без звонков менеджеру и подписания договоров.

1

Соберите сервер

Выберите GPU, объем диска, операционную систему и тариф в конфигураторе.

2

Создайте аккаунт

Простая регистрация через Яндекс-ID, Т-Банк или электронную почту.

3

Пополните баланс

Картой или по счёту для юрлиц. Средства зачисляются мгновенно.

Запустите сервер

И он будет готов через пару минут. Подключайтесь по SSH, RDP или прямо в браузере.

Платите только за время

Остановите сервер в любой момент и неиспользованные деньги вернутся на баланс.

Скидки за долгий срок аренды

При аренде от 3-х месяцев вы получаете скидку от 5% до 25%.

Смена конфига на лету

Начните с CPU‑сервера, затем подключите GPU для тяжёлых задач.

Что умеет llama.cpp

GGUF — единый формат весов

GGUF упаковывает веса, токенизатор и метаданные в один файл. Конвертеры convert_hf_to_gguf.py забирают модели с Hugging Face. Один артефакт грузится на CPU, CUDA, Metal или Vulkan без переупаковки.

Квантизация Q2–Q8 (k‑quants, IQ, NVFP4)

От 1.5 до 8 бит на вес. Q4_K_M даёт ~75% сжатия с минимальной потерей качества: 7B влезает в 4 ГБ, 70B — в 40 ГБ. Ahead‑of‑time квантизация плюс KV‑cache quantization на лету.

CUDA backend для NVIDIA

Кастомные CUDA‑kernels под Tensor Cores. Сборка флагом -DGGML_CUDA=ON. Параметр --n-gpu-layers 99 офлоадит все слои в VRAM, остальное — в RAM. Подходит A10, RTX 4090, A100.

llama‑server — OpenAI‑compatible API

HTTP‑сервер с эндпоинтами /v1/chat/completions, /v1/completions, /v1/embeddings. Существующие клиенты OpenAI SDK подключаются без правок. Мульти‑юзер, slot‑management, web UI.

Metal, ROCm, Vulkan, MUSA, SYCL

Apple Silicon — first‑class через Metal и Accelerate. AMD — через HIP/ROCm. Любая GPU с Vulkan‑драйвером (включая Intel Arc). MUSA для Moore Threads. Один кодовый путь — семь backend'ов.

Speculative decoding и tensor parallel

Draft‑модель предлагает токены, target‑модель верифицирует одним forward'ом. Build b8738 (апрель 2026) добавил настоящий tensor parallelism через Split Mode Graph — до 3‑4× ускорение на multi‑GPU.

llama‑bench — встроенный профайлер

Замер prompt processing (PP) и token generation (TG) для разных квантизаций, batch‑size и контекстов. Флаг -d depth1,depth2 тестирует производительность на разной глубине KV‑cache.

Partial offload и mmap

Слои, не помещающиеся в VRAM, остаются в RAM. Веса грузятся через mmap — старт за секунды. 70B Q4 крутится на 48 ГБ VRAM + RAM, 405B — на A100 80 ГБ + 256 ГБ системной памяти.

4 способа запуска

Запустите одной командой

После создания сервера подключитесь по SSH и выберите подходящий инструмент.

Сборка из исходников на Ubuntu 24.04 с CUDA 12.x. Артефакты: llama-server, llama-cli, llama-bench, llama-quantize.

# Зависимости
apt-get update && apt-get install -y git cmake build-essential python3-pip
export PATH=/usr/local/cuda/bin:$PATH

# Клонирование и сборка с CUDA backend
git clone https://github.com/ggml-org/llama.cpp && cd llama.cpp
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j$(nproc)

# Скачать GGUF-веса (например, Llama-3.1-8B Q4_K_M)
python3 -m venv /opt/llama-hf && source /opt/llama-hf/bin/activate
pip install -U 'huggingface_hub[cli]'
hf download bartowski/Meta-Llama-3.1-8B-Instruct-GGUF \
  Meta-Llama-3.1-8B-Instruct-Q4_K_M.gguf --local-dir ./models
Запустить llama.cpp

~168 ₽/час · посекундная оплата

Выберите конфигурацию сервера

Укажите параметры и запустите сервер за несколько минут

Тестовый запуск

Тестовый период
для бизнеса

Мы уверены в железе — поэтому даём потестировать до покупки.
Подключитесь по ЭДО, напишите нам, и мы обсудим условия тестового запуска.

Как получить:

  • 1 Подключитесь к нам по ЭДО
  • 2 Напишите нам
  • 3 Получите сервер с Tesla A100

Данные для подключения по ЭДО:

Оператор: АО «Калуга Астрал»

ID: 2AEE383BDF8-E70C-4F74-9E7E-995E8AC21999

Написать нам

Почему арендуют у нас

Серверы работают , мы следим

Мониторинг оборудования 24/7. Неисправный компонент заменим по гарантии без доплат.

Платите только за вычисления

Посекундная тарификация. Выключили сервер — счётчик остановился, данные на диске сохраняются. Скидки до 25% при оплате за 12 месяцев.

Поддержка, а не тикет-система

Сразу инженер, который разбирается в CUDA, PyTorch и настройке GPU-серверов. Ответ — до 15 минут.

Вопросы и ответы

llama.cpp — C++ движок инференса от ggml.ai с форматом GGUF и квантизацией Q2–Q8. Главное отличие от vLLM: минимальный footprint и поддержка CPU/GPU‑гибридного инференса. vLLM выжимает больше throughput на production multi‑GPU, llama.cpp выигрывает на low‑VRAM, edge и квантизованных моделях. Подробнее — сравнение на Qwen.

llama.cpp лицензирован под MIT — разрешено любое коммерческое использование, модификация, встраивание в продукт без роялти. Лицензия конкретной модели (Llama, Qwen, DeepSeek) проверяется отдельно: почти все open‑weight модели — Apache 2.0 или Llama Community License.

Минимум — любая GPU с CUDA 12+ (NVIDIA), ROCm 6+ (AMD) или Vulkan‑драйвером. Под 7B Q4 хватит A10 24 ГБ или RTX 3090. Под 70B Q4 — RTX 4090 48 ГБ или A100 80 ГБ. Для 405B Q4 нужно 2×A100 80 ГБ с tensor parallel.

GGUF (GGML Universal Format) — единый формат весов с токенизатором и метаданными в одном файле. Готовые квантизации — на Hugging Face: репозитории bartowski/*, TheBloke/*, unsloth/*. Свою модель конвертируете скриптом convert_hf_to_gguf.py из репозитория llama.cpp.

Q4_K_M — дефолтный выбор: ~75% сжатия при минимальной потере качества (perplexity +1‑2%). Q5_K_M — если есть запас VRAM и нужна точность ближе к bf16. Q8_0 — почти без потерь, но выигрыш по памяти в 2× против fp16. Q2_K и IQ‑квантизации — когда экономия памяти критична (mobile, edge).

Да. llama‑server отдаёт /v1/chat/completions, /v1/completions, /v1/embeddings в формате OpenAI. Подключается через openai.OpenAI(base_url="http://server:8080/v1") без правок. Работает с LangChain, LlamaIndex, Haystack, n8n, Continue.dev и любыми клиентами OpenAI.

С build b8738 (апрель 2026) llama.cpp поддерживает tensor parallelism через Split Mode Graph. Запуск с флагом --split-mode row или --tensor-split распределяет compute‑граф между GPU — до 3‑4× ускорение против layer‑split. Для максимального throughput multi‑user всё ещё выгоднее vLLM или SGLang.

Зависит от модели и железа. Дает прирост на dense‑моделях 30B+ с маленьким draft‑моделем (1‑3B). Не даёт прироста на MoE (Qwen3 30B‑A3B) и на потребительских GPU — проверяйте через llama-bench. Включается флагом --draft-model.

Сервер на Intelion готов за 3‑5 минут после оплаты. Сборка llama.cpp из исходников с CUDA — 2‑4 минуты на A100. Готовый Docker‑образ — 30 секунд. Скачивание GGUF (5‑40 ГБ) с HF — 1‑5 минут. Итого 5‑10 минут до первого токена. Инструкция — тут.

Да. Работаем с ООО/ИП по договору, оплата по счёту, НДС, ЭДО через Диадок/СБИС. Тестовый период для бизнеса — оператор и ID для ЭДО указаны в форме на этой же странице.

llama.cpp выгоден: квантизованные модели (Q2‑Q8), low‑VRAM (одна 24‑48 ГБ GPU), edge‑деплой, гибрид CPU + GPU, partial offload для моделей больше VRAM. vLLM/SGLang выгоднее: production multi‑user с высоким throughput, длинный контекст 200K+, fp16/fp8 без квантизации. Для оценки запустите llama-bench и сравните токены/сек.

llama.cpp на вашем GPU
От 168 ₽/час, посекундная оплата.

Оплата в рублях, посекундно. Поддержка 24/7. Запуск за 5 минут.