🧠 Архитектуры моделей
Transformer, механизмы внимания, нормализация, активации
Flash Attention
Flash Attention
Flash Attention — оптимизированная реализация механизма внимания, которая работает в 2-4× быстрее стандартной и требует O(n) памяти вместо O(n²) за счёт тайлинга и вычислений в SRAM GPU.
GQA
Grouped-Query Attention
GQA (Grouped-Query Attention) — оптимизация Multi-Head Attention, в которой несколько голов запросов (Q) делят одну пару ключ-значение (K, V). Уменьшает размер KV-cache и ускоряет инференс без потери качества.
RMSNorm
Root Mean Square Layer Normalization
RMSNorm — упрощённая нормализация, использующая только масштабирование по среднеквадратичному значению без центрирования. На 10-15% быстрее LayerNorm при сопоставимом качестве.
RoPE
Rotary Positional Encoding
RoPE (Rotary Positional Encoding) — метод кодирования позиций токенов в Transformer через вращение в комплексном пространстве. Стандарт для LLM: поддерживает экстраполяцию на длины, невиданные при обучении.
Self-Attention
Self-Attention / Scaled Dot-Product Attention
Self-Attention — механизм, позволяющий каждому элементу последовательности «смотреть» на все остальные элементы и определять их важность. Основа архитектуры Transformer.
Transformer
Transformer
Transformer — архитектура нейронной сети, основанная на механизме внимания (attention), ставшая основой всех современных LLM (GPT, LLaMA, Gemini) и моделей компьютерного зрения (ViT).