⚡ Инференс и оптимизация
Квантизация, serving, батчинг, KV-cache, метрики производительности
AWQ
Activation-Aware Weight Quantization
AWQ (Activation-Aware Weight Quantization) — метод 4-bit квантизации LLM, который определяет «важные» веса по паттернам активаций и сохраняет их с более высокой точностью. Даёт лучшее качество, чем GPTQ.
Continuous Batching
Continuous Batching / In-flight Batching
Continuous Batching — техника динамического формирования батчей при инференсе LLM, при которой новые запросы добавляются в обработку сразу после завершения любого текущего запроса, повышая throughput в 2-5×.
GGUF
GPT-Generated Unified Format
GGUF — формат файла для хранения квантизованных LLM, разработанный проектом llama.cpp. Поддерживает квантизацию от Q2 до Q8 и инференс на CPU, CPU+GPU и Apple Silicon.
GPTQ
GPTQ (GPT Quantization)
GPTQ — метод post-training квантизации LLM до 4/3/2 бит, основанный на поэлементной оптимизации с минимизацией ошибки. Один из самых популярных методов сжатия моделей для GPU-инференса.
KV-Cache
Key-Value Cache
KV-Cache — механизм кэширования ключей и значений (K, V) из предыдущих токенов при авторегрессивной генерации. Избавляет от повторных вычислений, ускоряя генерацию, но потребляет значительную VRAM.
PagedAttention
Paged Attention
PagedAttention — алгоритм управления KV-cache в vLLM, вдохновлённый виртуальной памятью ОС. Разбивает KV-cache на страницы, выделяемые по запросу, устраняя фрагментацию и увеличивая утилизацию VRAM до 98%.
Speculative Decoding
Speculative Decoding
Speculative Decoding — техника ускорения инференса LLM, при которой маленькая модель (draft) предсказывает несколько токенов вперёд, а большая модель (target) верифицирует их за один проход. Ускоряет генерацию в 2-3×.
TTFT
Time to First Token
TTFT (Time to First Token) — время от отправки запроса до получения первого токена ответа. Ключевая метрика latency для LLM-сервисов, определяющая отзывчивость для пользователя.
vLLM
vLLM
vLLM — высокопроизводительный serving-движок для LLM с PagedAttention, continuous batching и оптимизацией KV-cache. Обеспечивает throughput в 2-24× выше наивного инференса.
Квантизация
Quantization
Квантизация — метод сжатия нейронных сетей путём уменьшения точности представления весов (FP16 → INT8 → INT4). Уменьшает VRAM в 2-4× и ускоряет инференс с минимальной потерей качества.