Инференс и оптимизация 33 просмотра

TTFT и TPOT

Time to First Token / Time Per Output Token

TTFT и TPOT — основные метрики латентности LLM-инференса. TTFT измеряет задержку до начала ответа, TPOT — скорость генерации каждого следующего токена.

TTFT и TPOT

  • TTFT (Time to First Token) — сколько ждать до первого токена ответа
  • TPOT (Time Per Output Token) — как быстро появляются последующие токены
Общая латентность = TTFT + (N - 1) × TPOT

Пример: 200 токенов, TTFT=200мс, TPOT=30мс
Время = 200 + 199 × 30 = 6170 мс ≈ 6.2 сек

Что влияет

Фактор На TTFT На TPOT
Длина промпта Прямое Косвенное
Размер модели Прямое Прямое
Memory bandwidth Слабое Сильное
Compute (TFLOPS) Сильное Слабое
Квантизация Уменьшает Уменьшает

Типичные значения

Модель + GPU TTFT TPOT Ток/сек
7B FP16 / RTX 4090 50 мс 15 мс ~67
70B FP16 / 2×H100 300 мс 25 мс ~40
70B Q4 / A100 80GB 500 мс 40 мс ~25

Другие метрики

Метрика Описание
ITL Inter-Token Latency (≈ TPOT)
TPS Tokens Per Second
E2E Latency TTFT + N × TPOT
QPS Queries Per Second

Оптимизация

TTFT: Flash Attention, Tensor Parallelism, chunked prefill.

TPOT: квантизация (AWQ/GPTQ/FP8), Speculative Decoding, PagedAttention.

Связанные термины

Измеряется

Попробуйте на практике

Арендуйте GPU и запустите ML-модели в Intelion Cloud

Начать работу