Инференс и оптимизация
59 просмотров
TTFT и TPOT
Time to First Token / Time Per Output Token
TTFT и TPOT — основные метрики латентности LLM-инференса. TTFT измеряет задержку до начала ответа, TPOT — скорость генерации каждого следующего токена.
TTFT и TPOT
- TTFT (Time to First Token) — сколько ждать до первого токена ответа
- TPOT (Time Per Output Token) — как быстро появляются последующие токены
Общая латентность = TTFT + (N - 1) × TPOT
Пример: 200 токенов, TTFT=200мс, TPOT=30мс
Время = 200 + 199 × 30 = 6170 мс ≈ 6.2 сек
Что влияет
| Фактор | На TTFT | На TPOT |
|---|---|---|
| Длина промпта | Прямое | Косвенное |
| Размер модели | Прямое | Прямое |
| Memory bandwidth | Слабое | Сильное |
| Compute (TFLOPS) | Сильное | Слабое |
| Квантизация | Уменьшает | Уменьшает |
Типичные значения
| Модель + GPU | TTFT | TPOT | Ток/сек |
|---|---|---|---|
| 7B FP16 / RTX 4090 | 50 мс | 15 мс | ~67 |
| 70B FP16 / 2×H100 | 300 мс | 25 мс | ~40 |
| 70B Q4 / A100 80GB | 500 мс | 40 мс | ~25 |
Другие метрики
| Метрика | Описание |
|---|---|
| ITL | Inter-Token Latency (≈ TPOT) |
| TPS | Tokens Per Second |
| E2E Latency | TTFT + N × TPOT |
| QPS | Queries Per Second |
Оптимизация
TTFT: Flash Attention, Tensor Parallelism, chunked prefill.
TPOT: квантизация (AWQ/GPTQ/FP8), Speculative Decoding, PagedAttention.
Связанные термины
Измеряется