NVIDIA · BSD-3 · multi-model server

Аренда GPU для NVIDIA Triton Inference Server
запуск за 5 минут,
от 168 ₽/час

Production-сервер инференса от NVIDIA: один процесс держит модели PyTorch, TensorRT, ONNX, TensorFlow и Python-бэкенды одновременно. Dynamic batching, ensembles, gRPC/HTTP, метрики Prometheus из коробки.

Серверы в РФ (Самарская обл.) Оплата картой РФ, СБП, по счёту

Популярные задачи наших клиентов

Мульти-модельный inference-сервис

Один сервер раздаёт LLM, embedding-модель, реранкер, классификаторы и CV. Не нужны 5 контейнеров — один Triton с 5 моделями в repository.

Pipeline через Ensemble / BLS

Audio → ASR (Whisper) → LLM-суммаризация → TTS — одним endpoint'ом. Все шаги внутри Triton, без сетевых хопов между сервисами.

A/B-тестирование версий моделей

Версия 2 модели рядом с версией 1. Сплит трафика на уровне клиента по model_version, без рестарта сервера. Откат — за секунды.

Другая задача? Напишите нам — подберём конфигурацию.

4 шага до запуска

Как арендовать сервер с Tesla A100

От регистрации до запуска — меньше 10 минут. Без звонков менеджеру и подписания договоров.

1

Соберите сервер

Выберите GPU, объем диска, операционную систему и тариф в конфигураторе.

2

Создайте аккаунт

Простая регистрация через Яндекс-ID, Т-Банк или электронную почту.

3

Пополните баланс

Картой или по счёту для юрлиц. Средства зачисляются мгновенно.

Запустите сервер

И он будет готов через пару минут. Подключайтесь по SSH, RDP или прямо в браузере.

Платите только за время

Остановите сервер в любой момент и неиспользованные деньги вернутся на баланс.

Скидки за долгий срок аренды

При аренде от 3-х месяцев вы получаете скидку от 5% до 25%.

Смена конфига на лету

Начните с CPU‑сервера, затем подключите GPU для тяжёлых задач.

Что умеет NVIDIA Triton Inference Server

Multi-framework backends в одном процессе

Один сервер раздаёт модели PyTorch (LibTorch), TensorRT, ONNX Runtime, TensorFlow, OpenVINO, vLLM, TensorRT-LLM, Python и C++ кастом-бэкенды. Не нужно поднимать отдельный сервис под каждый фреймворк.

Dynamic Batching

Сервер сам собирает входящие запросы в батчи в окне max_queue_delay_microseconds. Throughput растёт в 3–10× без изменения клиентского кода. Настраивается в config.pbtxt.

Model Ensembles и BLS

Ensemble Scheduler связывает модели в DAG (например, препроцессинг → encoder → decoder → постпроцессинг) одним endpoint'ом. Business Logic Scripting (BLS) даёт ту же логику в Python — с ветвлениями и циклами.

gRPC + HTTP/REST API

Один сервер слушает gRPC (8001), HTTP (8000) и метрики (8002). KServe v2 protocol, streaming для LLM, бинарные тензоры. Клиенты: Python, C++, Java, JS, Go.

Метрики Prometheus и health-checks

Из коробки экспортируется per-model latency (queue/compute/total), request count, GPU utilization, memory, batch size. Готовые дашборды Grafana, /v2/health/ready и /v2/health/live для Kubernetes.

A/B testing и model versioning

В model repository лежат версии (1/, 2/, 3/), Triton грузит latest или конкретный набор. Через model_warmup и rate-limiter можно лить трафик на новую версию по проценту, откатываться без рестарта.

Multi-GPU и multi-instance

Один сервер видит все GPU и распределяет модели по ним. instance_group позволяет держать несколько копий одной модели — на разных GPU или на одной (для concurrency). Поддержка MIG на A100/H100.

TensorRT-LLM и vLLM из коробки

Бэкенды tensorrtllm_backend и vllm_backend ставят LLM-инференс под Triton: paged attention, in-flight batching, speculative decoding, OpenAI-совместимый chat completions endpoint.

4 способа запуска

Запустите одной командой

После создания сервера подключитесь по SSH и выберите подходящий инструмент.

Официальный образ из NVIDIA NGC. Тег формата YY.MM-py3 совпадает с CUDA/драйвером — на A100 80GB бери последний доступный.

# 1. Подготовить model repository (см. вкладку Model repo)
mkdir -p /opt/triton/models

# 2. Запустить Triton (gRPC 8001, HTTP 8000, metrics 8002)
docker run --gpus all --rm -d \
  --name triton \
  --shm-size=2g --ulimit memlock=-1 --ulimit stack=67108864 \
  -p 8000:8000 -p 8001:8001 -p 8002:8002 \
  -v /opt/triton/models:/models \
  nvcr.io/nvidia/tritonserver:24.10-py3 \
  tritonserver --model-repository=/models \
    --strict-model-config=false \
    --log-verbose=1

# 3. Проверить health
curl -v http://localhost:8000/v2/health/ready
curl http://localhost:8002/metrics | head
Запустить Triton Server

~168 ₽/час · посекундная оплата

Выберите конфигурацию сервера

Укажите параметры и запустите сервер за несколько минут

Тестовый запуск

Тестовый период
для бизнеса

Мы уверены в железе — поэтому даём потестировать до покупки.
Подключитесь по ЭДО, напишите нам, и мы обсудим условия тестового запуска.

Как получить:

  • 1 Подключитесь к нам по ЭДО
  • 2 Напишите нам
  • 3 Получите сервер с Tesla A100

Данные для подключения по ЭДО:

Оператор: АО «Калуга Астрал»

ID: 2AEE383BDF8-E70C-4F74-9E7E-995E8AC21999

Написать нам

Почему арендуют у нас

Серверы работают , мы следим

Мониторинг оборудования 24/7. Неисправный компонент заменим по гарантии без доплат.

Платите только за вычисления

Посекундная тарификация. Выключили сервер — счётчик остановился, данные на диске сохраняются. Скидки до 25% при оплате за 12 месяцев.

Поддержка, а не тикет-система

Сразу инженер, который разбирается в CUDA, PyTorch и настройке GPU-серверов. Ответ — до 15 минут.

Вопросы и ответы

Нет, это два разных продукта с одинаковым именем. Здесь речь о NVIDIA Triton Inference Server (github.com/triton-inference-server/server) — production-сервере для деплоя моделей. OpenAI Triton (github.com/triton-lang/triton) — это DSL для написания CUDA-ядер, его используют внутри PyTorch и vLLM. На этой странице — про сервер.

Из коробки: PyTorch (LibTorch и torch.compile), TensorRT, ONNX Runtime, TensorFlow, OpenVINO, TensorRT-LLM, vLLM, Python backend (любой Python-код), DALI для препроцессинга, FIL для классических ML-моделей. Можно писать кастомные C++ бэкенды через Triton Backend API.

Triton сам по себе нетребователен — нагрузку создают модели. Для production-инференса LLM 30–70B берём A100 80GB (достаточно VRAM для weights + KV-cache). Для CV/embedding пула — RTX 4090 48GB или A10 24GB. Под H100/H200 есть свежие NGC-теги с TensorRT-LLM SM90.

Да. Triton Inference Server лицензирован под BSD-3-Clause — можно встраивать в продукт, продавать, модифицировать. NGC-образ nvcr.io/nvidia/tritonserver бесплатный, без подписки. Платный NVIDIA AI Enterprise опционален — даёт enterprise-поддержку и расширенные SLA, но не нужен для запуска.

Triton принимает запросы по одному, но на GPU отправляет склеенным батчем — ждёт max_queue_delay_microseconds и собирает до preferred_batch_size. Throughput на CV-моделях растёт в 3–10×, latency p99 — на 5–20%. Включается в config.pbtxt одной секцией, без правок клиента.

Ensemble — это виртуальная модель, описанная как DAG из других моделей. Например: preprocess.py → encoder.onnx → decoder.trt → postprocess.py. Клиент делает один gRPC-запрос, Triton прогоняет по всему графу внутри процесса — без сетевых хопов. Альтернатива — Business Logic Scripting (BLS), тот же DAG, но на Python с ветвлениями и циклами.

Да, через два бэкенда. tensorrtllm_backend — TensorRT-LLM под капотом: in-flight batching, paged KV-cache, speculative decoding, лучший throughput на H100/A100. vllm_backend — vLLM как backend Triton'а: проще конвертация (HF-веса напрямую), PagedAttention, OpenAI-совместимый /v1/chat/completions.

Prometheus-эндпоинт на порту 8002/metrics. Per-model: nv_inference_request_success, nv_inference_queue_duration_us, nv_inference_compute_infer_duration_us, nv_inference_exec_count. Системные: nv_gpu_utilization, nv_gpu_memory_used_bytes, nv_cpu_utilization. Готовый Grafana-дашборд (grafana.com/grafana/dashboards) — id 12832.

gRPC (8001) — для production: бинарные тензоры, мультиплексирование, streaming, в 2–3× быстрее HTTP на больших входах. HTTP/REST (8000) — для отладки, JS-клиентов, интеграций без gRPC-стека. Оба работают параллельно — выбор клиентский, сервер один.

Положить новую версию в models/<name>/2/ рядом с 1/. Triton с флагом --model-control-mode=poll и --repository-poll-secs=15 подхватит её сам. В config.pbtxt через version_policy: { latest: { num_versions: 2 } } обе версии остаются доступными. Откат — удалить директорию новой версии.

Сервер готов за 3–5 минут после оплаты. Дальше: docker pull nvcr.io/nvidia/tritonserver (~5 ГБ, 1–3 мин), подкладка моделей в /models (от размера весов), первый запуск контейнера (10–30 сек на model loading). Итого 10–15 минут до первого инференса. SSH-инструкция — здесь.

Да. Работаем с ООО/ИП по договору, оплата по счёту, НДС, ЭДО через Диадок/СБИС. Подойдёт для on-prem инференс-инфраструктуры, которую нельзя выносить в зарубежный SaaS.

Triton Inference Server на вашем GPU
От 168 ₽/час, посекундная оплата.

Оплата в рублях, посекундно. Поддержка 24/7. Запуск за 5 минут.