Архитектуры моделей 24 просмотра

RMSNorm

Root Mean Square Layer Normalization

RMSNorm — упрощённая нормализация, использующая только масштабирование по среднеквадратичному значению без центрирования. На 10-15% быстрее LayerNorm при сопоставимом качестве.

Что такое RMSNorm

RMSNorm (Root Mean Square Normalization) — вариант нормализации слоя, который убирает операцию центрирования (вычитание среднего) из стандартного LayerNorm, оставляя только масштабирование.

Формулы

LayerNorm:

y = (x - mean(x)) / sqrt(var(x) + ε) × γ + β

RMSNorm:

y = x / sqrt(mean(x²) + ε) × γ

RMSNorm проще: нет вычитания среднего, нет bias (β).

Преимущества

  • Быстрее на 10-15% (меньше операций)
  • Стабильнее при обучении больших моделей
  • Качество сопоставимо с LayerNorm

Использование в моделях

RMSNorm используют: LLaMA (все версии), Mistral, Qwen, Gemma.

Классический LayerNorm остался в: GPT-2, BERT, T5.

Pre-Norm vs Post-Norm

Современные модели используют Pre-Norm (нормализация до attention/FFN), а не Post-Norm (после). Pre-Norm стабильнее при обучении глубоких сетей.

Pre-Norm:  x → RMSNorm → Attention → + (residual)
Post-Norm: x → Attention → + (residual) → LayerNorm

Связанные термины

Является частью

Попробуйте на практике

Арендуйте GPU и запустите ML-модели в Intelion Cloud

Начать работу