GQA
Grouped-Query Attention
GQA (Grouped-Query Attention) — оптимизация Multi-Head Attention, в которой несколько голов запросов (Q) делят одну пару ключ-значение (K, V). Уменьшает размер KV-cache и ускоряет инференс без потери качества.
Что такое GQA
Grouped-Query Attention (GQA) — компромисс между Multi-Head Attention (MHA) и Multi-Query Attention (MQA), предложенный Google (2023). В GQA головы запросов (Q) группируются, и каждая группа делит одну пару K, V.
Варианты Attention
| Тип | Q heads | KV heads | KV-cache | Качество |
|---|---|---|---|---|
| MHA | 32 | 32 | 100% | Лучшее |
| GQA | 32 | 8 | 25% | ~MHA |
| MQA | 32 | 1 | 3% | Хуже |
Почему GQA важна
При инференсе LLM основной bottleneck — KV-cache: для каждого токена нужно хранить K и V всех предыдущих токенов.
Для LLaMA 3 70B (80 слоёв, контекст 8K):
- MHA: KV-cache ≈ 20 GB
- GQA (8 KV-heads): KV-cache ≈ 5 GB (4× меньше)
Меньший KV-cache → больше запросов одновременно → выше throughput.
Кто использует GQA
- LLaMA 2 70B, LLaMA 3 (все размеры)
- Mistral 7B, Mixtral 8x7B
- Gemma 2
- Qwen 2
GQA стал стандартом де-факто для всех современных LLM.