Question 1

Triton Inference Server и OpenAI Triton — это одно и то же?

Accepted Answer

Нет, это два разных продукта с одинаковым именем. Здесь речь о NVIDIA Triton Inference Server (github.com/triton-inference-server/server) — production-сервере для деплоя моделей. OpenAI Triton (github.com/triton-lang/triton) — это DSL для написания CUDA-ядер, его используют внутри PyTorch и vLLM. На этой странице — про сервер.

Question 2

Какие фреймворки поддерживает Triton?

Accepted Answer

Из коробки: PyTorch (LibTorch и torch.compile), TensorRT, ONNX Runtime, TensorFlow, OpenVINO, TensorRT-LLM, vLLM, Python backend (любой Python-код), DALI для препроцессинга, FIL для классических ML-моделей. Можно писать кастомные C++ бэкенды через Triton Backend API.

Question 3

Какой GPU нужен под Triton?

Accepted Answer

Triton сам по себе нетребователен — нагрузку создают модели. Для production-инференса LLM 30–70B берём A100 80GB (достаточно VRAM для weights + KV-cache). Для CV/embedding пула — RTX 4090 48GB или A10 24GB. Под H100/H200 есть свежие NGC-теги с TensorRT-LLM SM90.

Question 4

Можно использовать Triton в коммерческом продукте?

Accepted Answer

Да. Triton Inference Server лицензирован под BSD-3-Clause — можно встраивать в продукт, продавать, модифицировать. NGC-образ nvcr.io/nvidia/tritonserver бесплатный, без подписки. Платный NVIDIA AI Enterprise опционален — даёт enterprise-поддержку и расширенные SLA, но не нужен для запуска.

Question 5

Что такое dynamic batching и зачем он нужен?

Accepted Answer

Triton принимает запросы по одному, но на GPU отправляет склеенным батчем — ждёт max_queue_delay_microseconds и собирает до preferred_batch_size. Throughput на CV-моделях растёт в 3–10×, latency p99 — на 5–20%. Включается в config.pbtxt одной секцией, без правок клиента.

Question 6

Как работают Model Ensembles?

Accepted Answer

Ensemble — это виртуальная модель, описанная как DAG из других моделей. Например: preprocess.py → encoder.onnx → decoder.trt → postprocess.py. Клиент делает один gRPC-запрос, Triton прогоняет по всему графу внутри процесса — без сетевых хопов. Альтернатива — Business Logic Scripting (BLS), тот же DAG, но на Python с ветвлениями и циклами.

Question 7

Triton умеет LLM-инференс с continuous batching?

Accepted Answer

Да, через два бэкенда. tensorrtllm_backend — TensorRT-LLM под капотом: in-flight batching, paged KV-cache, speculative decoding, лучший throughput на H100/A100. vllm_backend — vLLM как backend Triton'а: проще конвертация (HF-веса напрямую), PagedAttention, OpenAI-совместимый /v1/chat/completions.

Question 8

Какие метрики экспортирует Triton?

Accepted Answer

Prometheus-эндпоинт на порту 8002/metrics. Per-model: nv_inference_request_success, nv_inference_queue_duration_us, nv_inference_compute_infer_duration_us, nv_inference_exec_count. Системные: nv_gpu_utilization, nv_gpu_memory_used_bytes, nv_cpu_utilization. Готовый Grafana-дашборд (grafana.com/grafana/dashboards) — id 12832.

Question 9

gRPC или HTTP — что выбрать?

Accepted Answer

gRPC (8001) — для production: бинарные тензоры, мультиплексирование, streaming, в 2–3× быстрее HTTP на больших входах. HTTP/REST (8000) — для отладки, JS-клиентов, интеграций без gRPC-стека. Оба работают параллельно — выбор клиентский, сервер один.

Question 10

Как обновить модель без даунтайма?

Accepted Answer

Положить новую версию в models/<name>/2/ рядом с 1/. Triton с флагом --model-control-mode=poll и --repository-poll-secs=15 подхватит её сам. В config.pbtxt через version_policy: { latest: { num_versions: 2 } } обе версии остаются доступными. Откат — удалить директорию новой версии.

Question 11

Сколько длится запуск сервера?

Accepted Answer

Сервер готов за 3–5 минут после оплаты. Дальше: docker pull nvcr.io/nvidia/tritonserver (~5 ГБ, 1–3 мин), подкладка моделей в /models (от размера весов), первый запуск контейнера (10–30 сек на model loading). Итого 10–15 минут до первого инференса. SSH-инструкция — здесь.

Question 12

Можно с юрлица, с закрывающими документами?

Accepted Answer

Да. Работаем с ООО/ИП по договору, оплата по счёту, НДС, ЭДО через Диадок/СБИС. Подойдёт для on-prem инференс-инфраструктуры, которую нельзя выносить в зарубежный SaaS.

Аренда GPU для NVIDIA Triton Inference Server
запуск за 5 минут,
от 168 ₽/час

Популярные задачи наших клиентов

Мульти-модельный inference-сервис

Pipeline через Ensemble / BLS

A/B-тестирование версий моделей

Как арендовать сервер с Tesla A100

Соберите сервер

Создайте аккаунт

Пополните баланс

Запустите сервер

Платите только за время

Скидки за долгий срок аренды

Смена конфига на лету

Что умеет NVIDIA Triton Inference Server

Multi-framework backends в одном процессе

Dynamic Batching

Model Ensembles и BLS

gRPC + HTTP/REST API

Метрики Prometheus и health-checks

A/B testing и model versioning

Multi-GPU и multi-instance

TensorRT-LLM и vLLM из коробки

Запустите одной командой

Выберите конфигурацию сервера

Тестовый период
для бизнеса

Почему арендуют у нас

Серверы работают , мы следим

Платите только за вычисления

Поддержка, а не тикет-система

Вопросы и ответы

Triton Inference Server на вашем GPU
От 168 ₽/час, посекундная оплата.

Аренда GPU для NVIDIA Triton Inference Server запуск за 5 минут, от 168 ₽/час