Архитектуры моделей — Энциклопедия ML

Flash Attention

Flash Attention — оптимизированная реализация механизма внимания, которая работает в 2-4× быстрее стандартной и требует O(n) памяти вместо O(n²) за счёт тайлинга и вычислений в SRAM GPU.

GQA (Grouped-Query Attention) — оптимизация Multi-Head Attention, в которой несколько голов запросов (Q) делят одну пару ключ-значение (K, V). Уменьшает размер KV-cache и ускоряет инференс без потери качества.

RMSNorm

Root Mean Square Layer Normalization

RMSNorm — упрощённая нормализация, использующая только масштабирование по среднеквадратичному значению без центрирования. На 10-15% быстрее LayerNorm при сопоставимом качестве.

RoPE

Rotary Positional Encoding

RoPE (Rotary Positional Encoding) — метод кодирования позиций токенов в Transformer через вращение в комплексном пространстве. Стандарт для LLM: поддерживает экстраполяцию на длины, невиданные при обучении.

Self-Attention

Self-Attention / Scaled Dot-Product Attention

Self-Attention — механизм, позволяющий каждому элементу последовательности «смотреть» на все остальные элементы и определять их важность. Основа архитектуры Transformer.

Transformer

Transformer — архитектура нейронной сети, основанная на механизме внимания (attention), ставшая основой всех современных LLM (GPT, LLaMA, Gemini) и моделей компьютерного зрения (ViT).

🧠 Архитектуры моделей

Flash Attention

GQA

RMSNorm

RoPE

Self-Attention

Transformer