Инференс и оптимизация — Энциклопедия ML

AWQ

Activation-Aware Weight Quantization

AWQ (Activation-Aware Weight Quantization) — метод 4-bit квантизации LLM, который определяет «важные» веса по паттернам активаций и сохраняет их с более высокой точностью. Даёт лучшее качество, чем GPTQ.

Continuous Batching

Continuous Batching / In-flight Batching

Continuous Batching — техника динамического формирования батчей при инференсе LLM, при которой новые запросы добавляются в обработку сразу после завершения любого текущего запроса, повышая throughput в 2-5×.

GGUF

GPT-Generated Unified Format

GGUF — формат файла для хранения квантизованных LLM, разработанный проектом llama.cpp. Поддерживает квантизацию от Q2 до Q8 и инференс на CPU, CPU+GPU и Apple Silicon.

GPTQ

GPTQ (GPT Quantization)

GPTQ — метод post-training квантизации LLM до 4/3/2 бит, основанный на поэлементной оптимизации с минимизацией ошибки. Один из самых популярных методов сжатия моделей для GPU-инференса.

KV-Cache

Key-Value Cache

KV-Cache — механизм кэширования ключей и значений (K, V) из предыдущих токенов при авторегрессивной генерации. Избавляет от повторных вычислений, ускоряя генерацию, но потребляет значительную VRAM.

PagedAttention

Paged Attention

PagedAttention — алгоритм управления KV-cache в vLLM, вдохновлённый виртуальной памятью ОС. Разбивает KV-cache на страницы, выделяемые по запросу, устраняя фрагментацию и увеличивая утилизацию VRAM до 98%.

Speculative Decoding

Speculative Decoding — техника ускорения инференса LLM, при которой маленькая модель (draft) предсказывает несколько токенов вперёд, а большая модель (target) верифицирует их за один проход. Ускоряет генерацию в 2-3×.

TTFT

Time to First Token

TTFT (Time to First Token) — время от отправки запроса до получения первого токена ответа. Ключевая метрика latency для LLM-сервисов, определяющая отзывчивость для пользователя.

vLLM

vLLM — высокопроизводительный serving-движок для LLM с PagedAttention, continuous batching и оптимизацией KV-cache. Обеспечивает throughput в 2-24× выше наивного инференса.

Квантизация

Quantization

Квантизация — метод сжатия нейронных сетей путём уменьшения точности представления весов (FP16 → INT8 → INT4). Уменьшает VRAM в 2-4× и ускоряет инференс с минимальной потерей качества.

⚡ Инференс и оптимизация

AWQ