Production inference с максимальным throughput
Когда vLLM упирается в потолок — TensorRT-LLM выжимает дополнительные 20–60% за счёт fused-ядер, FP8 и кастомных kernels под NVIDIA GPU.
Когда vLLM упирается в потолок — TensorRT-LLM выжимает дополнительные 20–60% за счёт fused-ядер, FP8 и кастомных kernels под NVIDIA GPU.
Hopper-поколение нативно умеет FP8. На 70B моделях это значит +1.8–2× throughput против BF16 при сохранении качества — недоступно нигде, кроме TensorRT-LLM и нескольких форков.
Tensor parallelism на 2 × A100 80 для Llama 70B, 8 × H100 для DeepSeek-V3 671B. NCCL-коммуникация настроена под конкретное поколение GPU и интерконнект.
Другая задача? Напишите нам — подберём конфигурацию.
Runtime моментально вытесняет завершённые последовательности и подсаживает новые запросы прямо в текущий батч. Контекст и генерация перемежаются, GPU не простаивает в ожидании самого медленного запроса.
На H100/H200 FP8 даёт до 2× throughput и вдвое меньше памяти относительно BF16 при минимальной потере точности. Поддерживаются также INT4 AWQ, INT8 SmoothQuant и FP4 (Blackwell).
Paged attention с управлением KV-cache: переиспользование префиксов, offloading на CPU/SSD, точный учёт памяти на уровне блоков. Длинный контекст и высокий concurrency без OOM.
Бесшовный multi-GPU и multi-node инференс: tensor, pipeline и expert parallelism через Model Definition API. Llama 70B на 2 × A100 80, DeepSeek-V3 671B на узле H200.
Draft-Target Model, Medusa, EAGLE, Lookahead. Маленькая черновая модель генерит токены, большая — верифицирует пачкой. На Llama 3.3 70B даёт до 3.6× прирост throughput.
Один engine — много адаптеров. LoRA-веса подгружаются по `task_id` из кэша без перезапуска сервера. Удобно для мультиклиентского fine-tuned inference.
`trtllm-serve` поднимает HTTP/gRPC сервер с OpenAI-совместимым `/v1/chat/completions`. Стандартный Python LLM API + Triton-backend для продакшен-кластеров.
Кастомные fused-ядра под каждое поколение NVIDIA (Hopper, Ada, Blackwell). FlashAttention 3, FP8 GEMM, оптимальное использование Tensor Cores и TMA на H100.
Укажите параметры и запустите сервер за несколько минут
Мы уверены в железе — поэтому даём потестировать до покупки.
Подключитесь по ЭДО, напишите нам, и мы обсудим условия тестового запуска.
Как получить:
Данные для подключения по ЭДО:
Оператор: АО «Калуга Астрал»
ID: 2AEE383BDF8-E70C-4F74-9E7E-995E8AC21999
Мониторинг оборудования 24/7. Неисправный компонент заменим по гарантии без доплат.
Посекундная тарификация. Выключили сервер — счётчик остановился, данные на диске сохраняются. Скидки до 25% при оплате за 12 месяцев.
Сразу инженер, который разбирается в CUDA, PyTorch и настройке GPU-серверов. Ответ — до 15 минут.
Оплата в рублях, посекундно. Поддержка 24/7. Запуск за 5 минут.