Инференс и оптимизация
24 просмотра
TTFT
Time to First Token
TTFT (Time to First Token) — время от отправки запроса до получения первого токена ответа. Ключевая метрика latency для LLM-сервисов, определяющая отзывчивость для пользователя.
Что такое TTFT
TTFT (Time to First Token) — метрика, измеряющая задержку от момента получения запроса до генерации первого токена ответа. Включает:
- Prefill — обработка всех входных токенов (prompt processing)
- Первый decode — генерация первого выходного токена
Из чего складывается TTFT
TTFT = Время очереди + Prefill + Первый decode
Prefill — основная часть. Зависит от:
- Длины промта
- Размера модели
- Типа GPU
- Текущей нагрузки
Типичные значения
| Сценарий | TTFT | Оценка |
|---|---|---|
| Чат-бот (короткий промт) | < 200 мс | Отличный UX |
| RAG (1-2K контекст) | 200-500 мс | Хороший |
| Длинный документ (8K+) | 1-5 сек | Приемлемый |
| 128K контекст | 10-30 сек | Проблема |
Связанные метрики
| Метрика | Описание |
|---|---|
| TTFT | Время до первого токена |
| TPS (Tokens Per Second) | Скорость генерации (decode) |
| TPOT | Time Per Output Token |
| Throughput | Общая пропускная способность (tokens/sec для всех запросов) |
| E2E Latency | Общее время генерации полного ответа |
Как уменьшить TTFT
- Chunked prefill — разбиение длинного prefill на части
- Prefix caching — кэширование системного промпта
- Speculative decoding — ускорение decode-фазы
- Tensor Parallelism — распределение модели по GPU (уменьшает prefill)
- Более быстрый GPU — H100 vs A100 даёт ~2× улучшение
Связанные термины
Измеряется
Улучшается