NVIDIA · Apache 2.0 · production

Аренда GPU для TensorRT-LLM
запуск за 5 минут,
от 168 ₽/час

NVIDIA-оптимизированный inference engine с лучшими throughput и latency на NVIDIA GPU. In-flight batching, FP8/INT4, multi-GPU и OpenAI-совместимый API через trtllm-serve.

Серверы в РФ (Самарская обл.) Оплата картой РФ, СБП, по счёту

Популярные задачи наших клиентов

Production inference с максимальным throughput

Когда vLLM упирается в потолок — TensorRT-LLM выжимает дополнительные 20–60% за счёт fused-ядер, FP8 и кастомных kernels под NVIDIA GPU.

FP8 на H100 / H200

Hopper-поколение нативно умеет FP8. На 70B моделях это значит +1.8–2× throughput против BF16 при сохранении качества — недоступно нигде, кроме TensorRT-LLM и нескольких форков.

Multi-GPU 70B+

Tensor parallelism на 2 × A100 80 для Llama 70B, 8 × H100 для DeepSeek-V3 671B. NCCL-коммуникация настроена под конкретное поколение GPU и интерконнект.

Другая задача? Напишите нам — подберём конфигурацию.

4 шага до запуска

Как арендовать сервер с Tesla A100

От регистрации до запуска — меньше 10 минут. Без звонков менеджеру и подписания договоров.

1

Соберите сервер

Выберите GPU, объем диска, операционную систему и тариф в конфигураторе.

2

Создайте аккаунт

Простая регистрация через Яндекс-ID, Т-Банк или электронную почту.

3

Пополните баланс

Картой или по счёту для юрлиц. Средства зачисляются мгновенно.

Запустите сервер

И он будет готов через пару минут. Подключайтесь по SSH, RDP или прямо в браузере.

Платите только за время

Остановите сервер в любой момент и неиспользованные деньги вернутся на баланс.

Скидки за долгий срок аренды

При аренде от 3-х месяцев вы получаете скидку от 5% до 25%.

Смена конфига на лету

Начните с CPU‑сервера, затем подключите GPU для тяжёлых задач.

Что умеет TensorRT-LLM

In-Flight Batching

Runtime моментально вытесняет завершённые последовательности и подсаживает новые запросы прямо в текущий батч. Контекст и генерация перемежаются, GPU не простаивает в ожидании самого медленного запроса.

FP8 квантизация

На H100/H200 FP8 даёт до 2× throughput и вдвое меньше памяти относительно BF16 при минимальной потере точности. Поддерживаются также INT4 AWQ, INT8 SmoothQuant и FP4 (Blackwell).

Paged KV Cache

Paged attention с управлением KV-cache: переиспользование префиксов, offloading на CPU/SSD, точный учёт памяти на уровне блоков. Длинный контекст и высокий concurrency без OOM.

Tensor + Pipeline Parallel

Бесшовный multi-GPU и multi-node инференс: tensor, pipeline и expert parallelism через Model Definition API. Llama 70B на 2 × A100 80, DeepSeek-V3 671B на узле H200.

Speculative Decoding

Draft-Target Model, Medusa, EAGLE, Lookahead. Маленькая черновая модель генерит токены, большая — верифицирует пачкой. На Llama 3.3 70B даёт до 3.6× прирост throughput.

Multi-LoRA hot-swap

Один engine — много адаптеров. LoRA-веса подгружаются по `task_id` из кэша без перезапуска сервера. Удобно для мультиклиентского fine-tuned inference.

OpenAI API через LLM API

`trtllm-serve` поднимает HTTP/gRPC сервер с OpenAI-совместимым `/v1/chat/completions`. Стандартный Python LLM API + Triton-backend для продакшен-кластеров.

Custom attention kernels

Кастомные fused-ядра под каждое поколение NVIDIA (Hopper, Ada, Blackwell). FlashAttention 3, FP8 GEMM, оптимальное использование Tensor Cores и TMA на H100.

4 способа запуска

Запустите одной командой

После создания сервера подключитесь по SSH и выберите подходящий инструмент.

Самый простой способ. Подходит для прототипа, бенчмарков и интеграции в Python-приложение через высокоуровневый LLM API.

# Ubuntu 24.04, CUDA 13.x, Python 3.12 в venv.
# Требования: CUDA toolkit 13 + системный MPI.
# Если в системе CUDA 12.x — берите NGC Docker (вторая вкладка).
apt-get update && apt-get install -y libopenmpi-dev openmpi-bin
python3 -m venv /opt/trtllm && source /opt/trtllm/bin/activate
pip install --upgrade pip
pip install tensorrt_llm
# Проверка (требует libcublasLt.so.13):
python3 -c "from tensorrt_llm import LLM; print(LLM)"
# Запуск OpenAI-совместимого сервера:
trtllm-serve meta-llama/Llama-3.1-8B-Instruct \
  --host 0.0.0.0 --port 8000 \
  --tp_size 1 --max_batch_size 64
Запустить TensorRT-LLM

~168 ₽/час · посекундная оплата

Выберите конфигурацию сервера

Укажите параметры и запустите сервер за несколько минут

Тестовый запуск

Тестовый период
для бизнеса

Мы уверены в железе — поэтому даём потестировать до покупки.
Подключитесь по ЭДО, напишите нам, и мы обсудим условия тестового запуска.

Как получить:

  • 1 Подключитесь к нам по ЭДО
  • 2 Напишите нам
  • 3 Получите сервер с Tesla A100

Данные для подключения по ЭДО:

Оператор: АО «Калуга Астрал»

ID: 2AEE383BDF8-E70C-4F74-9E7E-995E8AC21999

Написать нам

Почему арендуют у нас

Серверы работают , мы следим

Мониторинг оборудования 24/7. Неисправный компонент заменим по гарантии без доплат.

Платите только за вычисления

Посекундная тарификация. Выключили сервер — счётчик остановился, данные на диске сохраняются. Скидки до 25% при оплате за 12 месяцев.

Поддержка, а не тикет-система

Сразу инженер, который разбирается в CUDA, PyTorch и настройке GPU-серверов. Ответ — до 15 минут.

Вопросы и ответы

TensorRT-LLM — это NVIDIA-оптимизированный inference engine с кастомными CUDA-ядрами и TensorRT-компиляцией. На NVIDIA GPU обычно выдаёт лучший throughput и latency, особенно с FP8 на H100/H200. vLLM проще в развёртывании и поддерживает больше моделей «из коробки», SGLang силён на длинных контекстах и structured output. На AMD/Intel GPU TensorRT-LLM не работает — нужен vLLM.

Только NVIDIA, начиная с Volta (V100). Полный набор фич — на Ampere (A100 80 ГБ, A10), Hopper (H100, H200) и Blackwell. FP8 поддерживается только с Hopper, FP4 — только с Blackwell. На Ada (RTX 4090) работает, но без FP8.

Да, лицензия Apache 2.0 — можно использовать в коммерческих продуктах, модифицировать, продавать. Репозиторий github.com/NVIDIA/TensorRT-LLM, веса моделей — по своим лицензиям (Llama Community License, Qwen Apache 2.0 и т.д.).

Сборка фиксирует максимальные размеры (batch, input, seq) и стратегию parallelism в оптимизированный TensorRT-engine. Это даёт выигрыш в скорости, но значит, что для другой конфигурации нужно пересобрать. С trtllm-serve <hf_model> Python LLM API сам собирает engine «на лету» — проще, но на первом старте дольше.

Для 7–8B — 3–5 минут на A100. Для 70B с TP=4 — 15–30 минут. Сборка идёт один раз, потом trtllm-serve поднимает готовый engine за 10–30 секунд. Имеет смысл закоммитить собранный engine в объектное хранилище и разливать на ноды — это быстрее повторной сборки.

Да. trtllm-serve поднимает HTTP-сервер с эндпоинтами /v1/chat/completions и /v1/completions — совместимыми с OpenAI Python SDK. Можно подключать LangChain, LlamaIndex, Continue.dev, AnythingLLM напрямую, заменив только base_url.

В FP8 веса Llama 70B весят ~70 ГБ — на одной H100 80 ГБ помещаются впритык, без запаса под длинный контекст и большой batch. Рекомендуем 2 × H100 80 с TP=2 или одну H200 141 ГБ. На A100 FP8 не работает — придётся брать INT4 AWQ (~40 ГБ) или BF16 на 2 × A100.

Сервер готов за 3–5 минут после оплаты. Дальше docker pull NGC-образа (5–10 ГБ, 1–3 минуты), скачивание весов с HuggingFace (10–30 ГБ) и первая сборка engine (3–15 минут в зависимости от размера модели). Итого 10–25 минут до первого токена. Повторные старты — за 30 секунд.

Да. TensorRT-LLM умеет multi-LoRA serving: загружаете адаптеры в LoRA-cache и передаёте task_id в каждом запросе. Engine применяет нужный адаптер на лету, без перезагрузки. Когда кэш заполняется — старые адаптеры вытесняются по LRU.

Берёте маленькую draft-модель (например, Llama 3.2 1B) и большую target-модель (Llama 3.3 70B). Draft быстро генерит несколько токенов, target верифицирует пачкой. На chat-нагрузке выигрыш до 3.6× throughput. Альтернативы — Medusa, EAGLE, Lookahead — все встроены в TensorRT-LLM.

Да. Работаем с ООО/ИП по договору, оплата по счёту, НДС, ЭДО через Диадок/СБИС. В блоке «Тестовый период для бизнеса» — оператор и ID для ЭДО.

Платите за каждую секунду работы сервера. Остановили сервер — счётчик замер, диск сохраняется отдельно (~2 ₽/час за 256 ГБ). Неиспользованный остаток возвращается на баланс.

TensorRT-LLM на вашем GPU
От 168 ₽/час, посекундная оплата.

Оплата в рублях, посекундно. Поддержка 24/7. Запуск за 5 минут.