Инференс и оптимизация 24 просмотра

TTFT

Time to First Token

TTFT (Time to First Token) — время от отправки запроса до получения первого токена ответа. Ключевая метрика latency для LLM-сервисов, определяющая отзывчивость для пользователя.

Содержание

Что такое TTFT
Из чего складывается TTFT
Типичные значения
Связанные метрики
Как уменьшить TTFT

Что такое TTFT

TTFT (Time to First Token) — метрика, измеряющая задержку от момента получения запроса до генерации первого токена ответа. Включает:

Prefill — обработка всех входных токенов (prompt processing)
Первый decode — генерация первого выходного токена

Из чего складывается TTFT

TTFT = Время очереди + Prefill + Первый decode

Prefill — основная часть. Зависит от:
- Длины промта
- Размера модели
- Типа GPU
- Текущей нагрузки

Типичные значения

Сценарий	TTFT	Оценка
Чат-бот (короткий промт)	< 200 мс	Отличный UX
RAG (1-2K контекст)	200-500 мс	Хороший
Длинный документ (8K+)	1-5 сек	Приемлемый
128K контекст	10-30 сек	Проблема

Связанные метрики

Метрика	Описание
TTFT	Время до первого токена
TPS (Tokens Per Second)	Скорость генерации (decode)
TPOT	Time Per Output Token
Throughput	Общая пропускная способность (tokens/sec для всех запросов)
E2E Latency	Общее время генерации полного ответа

Как уменьшить TTFT

Chunked prefill — разбиение длинного prefill на части
Prefix caching — кэширование системного промпта
Speculative decoding — ускорение decode-фазы
Tensor Parallelism — распределение модели по GPU (уменьшает prefill)
Более быстрый GPU — H100 vs A100 даёт ~2× улучшение

Связанные термины

Измеряется

vLLM

Улучшается

Speculative Decoding

Попробуйте на практике

Арендуйте GPU и запустите ML-модели в Intelion Cloud

Начать работу