Архитектуры моделей
24 просмотра
RMSNorm
Root Mean Square Layer Normalization
RMSNorm — упрощённая нормализация, использующая только масштабирование по среднеквадратичному значению без центрирования. На 10-15% быстрее LayerNorm при сопоставимом качестве.
Что такое RMSNorm
RMSNorm (Root Mean Square Normalization) — вариант нормализации слоя, который убирает операцию центрирования (вычитание среднего) из стандартного LayerNorm, оставляя только масштабирование.
Формулы
LayerNorm:
y = (x - mean(x)) / sqrt(var(x) + ε) × γ + β
RMSNorm:
y = x / sqrt(mean(x²) + ε) × γ
RMSNorm проще: нет вычитания среднего, нет bias (β).
Преимущества
- Быстрее на 10-15% (меньше операций)
- Стабильнее при обучении больших моделей
- Качество сопоставимо с LayerNorm
Использование в моделях
RMSNorm используют: LLaMA (все версии), Mistral, Qwen, Gemma.
Классический LayerNorm остался в: GPT-2, BERT, T5.
Pre-Norm vs Post-Norm
Современные модели используют Pre-Norm (нормализация до attention/FFN), а не Post-Norm (после). Pre-Norm стабильнее при обучении глубоких сетей.
Pre-Norm: x → RMSNorm → Attention → + (residual)
Post-Norm: x → Attention → + (residual) → LayerNorm
Связанные термины
Является частью