Инференс и оптимизация 59 просмотров

TTFT и TPOT

Time to First Token / Time Per Output Token

TTFT и TPOT — основные метрики латентности LLM-инференса. TTFT измеряет задержку до начала ответа, TPOT — скорость генерации каждого следующего токена.

Содержание

TTFT и TPOT
Что влияет
Типичные значения
Другие метрики
Оптимизация

TTFT и TPOT

TTFT (Time to First Token) — сколько ждать до первого токена ответа
TPOT (Time Per Output Token) — как быстро появляются последующие токены

Общая латентность = TTFT + (N - 1) × TPOT

Пример: 200 токенов, TTFT=200мс, TPOT=30мс
Время = 200 + 199 × 30 = 6170 мс ≈ 6.2 сек

Что влияет

Фактор	На TTFT	На TPOT
Длина промпта	Прямое	Косвенное
Размер модели	Прямое	Прямое
Memory bandwidth	Слабое	Сильное
Compute (TFLOPS)	Сильное	Слабое
Квантизация	Уменьшает	Уменьшает

Типичные значения

Модель + GPU	TTFT	TPOT	Ток/сек
7B FP16 / RTX 4090	50 мс	15 мс	~67
70B FP16 / 2×H100	300 мс	25 мс	~40
70B Q4 / A100 80GB	500 мс	40 мс	~25

Другие метрики

Метрика	Описание
ITL	Inter-Token Latency (≈ TPOT)
TPS	Tokens Per Second
E2E Latency	TTFT + N × TPOT
QPS	Queries Per Second

Оптимизация

TTFT: Flash Attention, Tensor Parallelism, chunked prefill.

TPOT: квантизация (AWQ/GPTQ/FP8), Speculative Decoding, PagedAttention.

Связанные термины

Измеряется

Prefill и Decode

Попробуйте на практике

Арендуйте GPU и запустите ML-модели в Intelion Cloud

Начать работу