🧠 Архитектуры моделей

Transformer, механизмы внимания, нормализация, активации

Flash Attention

Flash Attention

Flash Attention — оптимизированная реализация механизма внимания, которая работает в 2-4× быстрее стандартной и требует O(n) памяти вместо O(n²) за счёт тайлинга и вычислений в SRAM GPU.

GQA

Grouped-Query Attention

GQA (Grouped-Query Attention) — оптимизация Multi-Head Attention, в которой несколько голов запросов (Q) делят одну пару ключ-значение (K, V). Уменьшает размер KV-cache и ускоряет инференс без потери качества.

MoE

Mixture of Experts

MoE (Mixture of Experts) — архитектура нейросети, где каждый вход обрабатывается только частью параметров (экспертами), выбранных роутером. Позволяет масштабировать модель без пропорционального роста вычислений.

RAG

Retrieval-Augmented Generation

RAG (Retrieval-Augmented Generation) — архитектурный паттерн, при котором LLM получает релевантные документы из внешней базы знаний перед генерацией ответа. Решает проблему устаревших знаний и галлюцинаций.

RMSNorm

Root Mean Square Layer Normalization

RMSNorm — упрощённая нормализация, использующая только масштабирование по среднеквадратичному значению без центрирования. На 10-15% быстрее LayerNorm при сопоставимом качестве.

RoPE

Rotary Positional Encoding

RoPE (Rotary Positional Encoding) — метод кодирования позиций токенов в Transformer через вращение в комплексном пространстве. Стандарт для LLM: поддерживает экстраполяцию на длины, невиданные при обучении.

Self-Attention

Self-Attention / Scaled Dot-Product Attention

Self-Attention — механизм, позволяющий каждому элементу последовательности «смотреть» на все остальные элементы и определять их важность. Основа архитектуры Transformer.

Transformer

Transformer

Transformer — архитектура нейронной сети, основанная на механизме внимания (attention), ставшая основой всех современных LLM (GPT, LLaMA, Gemini) и моделей компьютерного зрения (ViT).

Диффузионные модели

Diffusion Models

Диффузионные модели — класс генеративных моделей, создающих изображения, видео и аудио путём постепенного удаления шума из случайных данных. Основа Stable Diffusion, DALL-E 3, Midjourney.