Архитектуры моделей 16 просмотров

GQA

Grouped-Query Attention

GQA (Grouped-Query Attention) — оптимизация Multi-Head Attention, в которой несколько голов запросов (Q) делят одну пару ключ-значение (K, V). Уменьшает размер KV-cache и ускоряет инференс без потери качества.

Что такое GQA

Grouped-Query Attention (GQA) — компромисс между Multi-Head Attention (MHA) и Multi-Query Attention (MQA), предложенный Google (2023). В GQA головы запросов (Q) группируются, и каждая группа делит одну пару K, V.

Варианты Attention

Тип Q heads KV heads KV-cache Качество
MHA 32 32 100% Лучшее
GQA 32 8 25% ~MHA
MQA 32 1 3% Хуже

Почему GQA важна

При инференсе LLM основной bottleneck — KV-cache: для каждого токена нужно хранить K и V всех предыдущих токенов.

Для LLaMA 3 70B (80 слоёв, контекст 8K):
- MHA: KV-cache ≈ 20 GB
- GQA (8 KV-heads): KV-cache ≈ 5 GB (4× меньше)

Меньший KV-cache → больше запросов одновременно → выше throughput.

Кто использует GQA

  • LLaMA 2 70B, LLaMA 3 (все размеры)
  • Mistral 7B, Mixtral 8x7B
  • Gemma 2
  • Qwen 2

GQA стал стандартом де-факто для всех современных LLM.

Связанные термины

Улучшает

Попробуйте на практике

Арендуйте GPU и запустите ML-модели в Intelion Cloud

Начать работу