Мульти-модельный inference-сервис
Один сервер раздаёт LLM, embedding-модель, реранкер, классификаторы и CV. Не нужны 5 контейнеров — один Triton с 5 моделями в repository.
Один сервер раздаёт LLM, embedding-модель, реранкер, классификаторы и CV. Не нужны 5 контейнеров — один Triton с 5 моделями в repository.
Audio → ASR (Whisper) → LLM-суммаризация → TTS — одним endpoint'ом. Все шаги внутри Triton, без сетевых хопов между сервисами.
Версия 2 модели рядом с версией 1. Сплит трафика на уровне клиента по model_version, без рестарта сервера. Откат — за секунды.
Другая задача? Напишите нам — подберём конфигурацию.
Один сервер раздаёт модели PyTorch (LibTorch), TensorRT, ONNX Runtime, TensorFlow, OpenVINO, vLLM, TensorRT-LLM, Python и C++ кастом-бэкенды. Не нужно поднимать отдельный сервис под каждый фреймворк.
Сервер сам собирает входящие запросы в батчи в окне max_queue_delay_microseconds. Throughput растёт в 3–10× без изменения клиентского кода. Настраивается в config.pbtxt.
Ensemble Scheduler связывает модели в DAG (например, препроцессинг → encoder → decoder → постпроцессинг) одним endpoint'ом. Business Logic Scripting (BLS) даёт ту же логику в Python — с ветвлениями и циклами.
Один сервер слушает gRPC (8001), HTTP (8000) и метрики (8002). KServe v2 protocol, streaming для LLM, бинарные тензоры. Клиенты: Python, C++, Java, JS, Go.
Из коробки экспортируется per-model latency (queue/compute/total), request count, GPU utilization, memory, batch size. Готовые дашборды Grafana, /v2/health/ready и /v2/health/live для Kubernetes.
В model repository лежат версии (1/, 2/, 3/), Triton грузит latest или конкретный набор. Через model_warmup и rate-limiter можно лить трафик на новую версию по проценту, откатываться без рестарта.
Один сервер видит все GPU и распределяет модели по ним. instance_group позволяет держать несколько копий одной модели — на разных GPU или на одной (для concurrency). Поддержка MIG на A100/H100.
Бэкенды tensorrtllm_backend и vllm_backend ставят LLM-инференс под Triton: paged attention, in-flight batching, speculative decoding, OpenAI-совместимый chat completions endpoint.
Укажите параметры и запустите сервер за несколько минут
Мы уверены в железе — поэтому даём потестировать до покупки.
Подключитесь по ЭДО, напишите нам, и мы обсудим условия тестового запуска.
Как получить:
Данные для подключения по ЭДО:
Оператор: АО «Калуга Астрал»
ID: 2AEE383BDF8-E70C-4F74-9E7E-995E8AC21999
Мониторинг оборудования 24/7. Неисправный компонент заменим по гарантии без доплат.
Посекундная тарификация. Выключили сервер — счётчик остановился, данные на диске сохраняются. Скидки до 25% при оплате за 12 месяцев.
Сразу инженер, который разбирается в CUDA, PyTorch и настройке GPU-серверов. Ответ — до 15 минут.
Оплата в рублях, посекундно. Поддержка 24/7. Запуск за 5 минут.