Инференс и оптимизация 24 просмотра

TTFT

Time to First Token

TTFT (Time to First Token) — время от отправки запроса до получения первого токена ответа. Ключевая метрика latency для LLM-сервисов, определяющая отзывчивость для пользователя.

Что такое TTFT

TTFT (Time to First Token) — метрика, измеряющая задержку от момента получения запроса до генерации первого токена ответа. Включает:

  1. Prefill — обработка всех входных токенов (prompt processing)
  2. Первый decode — генерация первого выходного токена

Из чего складывается TTFT

TTFT = Время очереди + Prefill + Первый decode

Prefill — основная часть. Зависит от:
- Длины промта
- Размера модели
- Типа GPU
- Текущей нагрузки

Типичные значения

Сценарий TTFT Оценка
Чат-бот (короткий промт) < 200 мс Отличный UX
RAG (1-2K контекст) 200-500 мс Хороший
Длинный документ (8K+) 1-5 сек Приемлемый
128K контекст 10-30 сек Проблема

Связанные метрики

Метрика Описание
TTFT Время до первого токена
TPS (Tokens Per Second) Скорость генерации (decode)
TPOT Time Per Output Token
Throughput Общая пропускная способность (tokens/sec для всех запросов)
E2E Latency Общее время генерации полного ответа

Как уменьшить TTFT

  • Chunked prefill — разбиение длинного prefill на части
  • Prefix caching — кэширование системного промпта
  • Speculative decoding — ускорение decode-фазы
  • Tensor Parallelism — распределение модели по GPU (уменьшает prefill)
  • Более быстрый GPU — H100 vs A100 даёт ~2× улучшение

Связанные термины

Измеряется
Улучшается

Попробуйте на практике

Арендуйте GPU и запустите ML-модели в Intelion Cloud

Начать работу