Архитектуры моделей 16 просмотров

GQA

Grouped-Query Attention

GQA (Grouped-Query Attention) — оптимизация Multi-Head Attention, в которой несколько голов запросов (Q) делят одну пару ключ-значение (K, V). Уменьшает размер KV-cache и ускоряет инференс без потери качества.

Содержание

Что такое GQA
Варианты Attention
Почему GQA важна
Кто использует GQA

Что такое GQA

Grouped-Query Attention (GQA) — компромисс между Multi-Head Attention (MHA) и Multi-Query Attention (MQA), предложенный Google (2023). В GQA головы запросов (Q) группируются, и каждая группа делит одну пару K, V.

Варианты Attention

Тип	Q heads	KV heads	KV-cache	Качество
MHA	32	32	100%	Лучшее
GQA	32	8	25%	~MHA
MQA	32	1	3%	Хуже

Почему GQA важна

При инференсе LLM основной bottleneck — KV-cache: для каждого токена нужно хранить K и V всех предыдущих токенов.

Для LLaMA 3 70B (80 слоёв, контекст 8K):
- MHA: KV-cache ≈ 20 GB
- GQA (8 KV-heads): KV-cache ≈ 5 GB (4× меньше)

Меньший KV-cache → больше запросов одновременно → выше throughput.

Кто использует GQA

LLaMA 2 70B, LLaMA 3 (все размеры)
Mistral 7B, Mixtral 8x7B
Gemma 2
Qwen 2

GQA стал стандартом де-факто для всех современных LLM.

Связанные термины

Улучшает

Self-Attention

Попробуйте на практике

Арендуйте GPU и запустите ML-модели в Intelion Cloud

Начать работу