Question 1

Чем TensorRT-LLM отличается от vLLM и SGLang?

Accepted Answer

TensorRT-LLM — это NVIDIA-оптимизированный inference engine с кастомными CUDA-ядрами и TensorRT-компиляцией. На NVIDIA GPU обычно выдаёт лучший throughput и latency, особенно с FP8 на H100/H200. vLLM проще в развёртывании и поддерживает больше моделей &laquo;из коробки&raquo;, SGLang силён на длинных контекстах и structured output. На AMD/Intel GPU TensorRT-LLM не работает — нужен vLLM.

Question 2

Какой GPU нужен для TensorRT-LLM?

Accepted Answer

Только NVIDIA, начиная с Volta (V100). Полный набор фич — на Ampere (A100 80 ГБ, A10), Hopper (H100, H200) и Blackwell. FP8 поддерживается только с Hopper, FP4 — только с Blackwell. На Ada (RTX 4090) работает, но без FP8.

Question 3

TensorRT-LLM это open-source?

Accepted Answer

Да, лицензия Apache 2.0 — можно использовать в коммерческих продуктах, модифицировать, продавать. Репозиторий github.com/NVIDIA/TensorRT-LLM, веса моделей — по своим лицензиям (Llama Community License, Qwen Apache 2.0 и т.д.).

Question 4

Зачем заранее собирать engine через trtllm-build?

Accepted Answer

Сборка фиксирует максимальные размеры (batch, input, seq) и стратегию parallelism в оптимизированный TensorRT-engine. Это даёт выигрыш в скорости, но значит, что для другой конфигурации нужно пересобрать. С trtllm-serve <hf_model> Python LLM API сам собирает engine &laquo;на лету&raquo; — проще, но на первом старте дольше.

Question 5

Сколько занимает сборка engine?

Accepted Answer

Для 7–8B — 3–5 минут на A100. Для 70B с TP=4 — 15–30 минут. Сборка идёт один раз, потом trtllm-serve поднимает готовый engine за 10–30 секунд. Имеет смысл закоммитить собранный engine в объектное хранилище и разливать на ноды — это быстрее повторной сборки.

Question 6

Поддерживает ли TensorRT-LLM OpenAI API?

Accepted Answer

Да. trtllm-serve поднимает HTTP-сервер с эндпоинтами /v1/chat/completions и /v1/completions — совместимыми с OpenAI Python SDK. Можно подключать LangChain, LlamaIndex, Continue.dev, AnythingLLM напрямую, заменив только base_url.

Question 7

Хватит ли 80 ГБ VRAM под Llama 70B в FP8?

Accepted Answer

В FP8 веса Llama 70B весят ~70 ГБ — на одной H100 80 ГБ помещаются впритык, без запаса под длинный контекст и большой batch. Рекомендуем 2 × H100 80 с TP=2 или одну H200 141 ГБ. На A100 FP8 не работает — придётся брать INT4 AWQ (~40 ГБ) или BF16 на 2 × A100.

Question 8

Сколько длится запуск сервера с TensorRT-LLM?

Accepted Answer

Сервер готов за 3–5 минут после оплаты. Дальше docker pull NGC-образа (5–10 ГБ, 1–3 минуты), скачивание весов с HuggingFace (10–30 ГБ) и первая сборка engine (3–15 минут в зависимости от размера модели). Итого 10–25 минут до первого токена. Повторные старты — за 30 секунд.

Question 9

Можно ли сменить LoRA-адаптер без перезапуска?

Accepted Answer

Да. TensorRT-LLM умеет multi-LoRA serving: загружаете адаптеры в LoRA-cache и передаёте task_id в каждом запросе. Engine применяет нужный адаптер на лету, без перезагрузки. Когда кэш заполняется — старые адаптеры вытесняются по LRU.

Question 10

Как ускорить генерацию через speculative decoding?

Accepted Answer

Берёте маленькую draft-модель (например, Llama 3.2 1B) и большую target-модель (Llama 3.3 70B). Draft быстро генерит несколько токенов, target верифицирует пачкой. На chat-нагрузке выигрыш до 3.6× throughput. Альтернативы — Medusa, EAGLE, Lookahead — все встроены в TensorRT-LLM.

Question 11

Можно с юрлица, с закрывающими документами?

Accepted Answer

Да. Работаем с ООО/ИП по договору, оплата по счёту, НДС, ЭДО через Диадок/СБИС. В блоке «Тестовый период для бизнеса» — оператор и ID для ЭДО.

Question 12

Посекундная оплата — как это работает?

Accepted Answer

Платите за каждую секунду работы сервера. Остановили сервер — счётчик замер, диск сохраняется отдельно (~2 ₽/час за 256 ГБ). Неиспользованный остаток возвращается на баланс.

Аренда GPU для TensorRT-LLM
запуск за 5 минут,
от 168 ₽/час

Популярные задачи наших клиентов

Production inference с максимальным throughput

FP8 на H100 / H200

Multi-GPU 70B+

Как арендовать сервер с Tesla A100

Соберите сервер

Создайте аккаунт

Пополните баланс

Запустите сервер

Платите только за время

Скидки за долгий срок аренды

Смена конфига на лету

Что умеет TensorRT-LLM

In-Flight Batching

FP8 квантизация

Paged KV Cache

Tensor + Pipeline Parallel

Speculative Decoding

Multi-LoRA hot-swap

OpenAI API через LLM API

Custom attention kernels

Запустите одной командой

Выберите конфигурацию сервера

Тестовый период
для бизнеса

Почему арендуют у нас

Серверы работают , мы следим

Платите только за вычисления

Поддержка, а не тикет-система

Вопросы и ответы

TensorRT-LLM на вашем GPU
От 168 ₽/час, посекундная оплата.

Аренда GPU для TensorRT-LLM запуск за 5 минут, от 168 ₽/час