MoE
Mixture of Experts
MoE (Mixture of Experts) — архитектура нейросети, где каждый вход обрабатывается только частью параметров (экспертами), выбранных роутером. Позволяет масштабировать модель без пропорционального роста вычислений.
Что такое MoE
MoE (Mixture of Experts) — архитектурный паттерн, при котором слой FFN (Feed-Forward Network) в трансформере заменяется набором «экспертов» — отдельных FFN-блоков. Для каждого токена роутер выбирает только top-K экспертов (обычно 2 из 8-64), остальные не активируются.
Как работает
Входной токен
↓
[Router / Gate] ← обучаемая сеть маршрутизации
/ | \
Exp1 Exp2 ...ExpN ← N независимых FFN-блоков
\ | /
Взвешенная сумма top-K
↓
Выходной токен
Ключевая идея: модель с 100B общих параметров при top-2 из 8 экспертов использует только ~25B параметров на токен. Вычислительная стоимость — как у модели 25B, а качество — как у 100B.
Примеры MoE-моделей
| Модель | Параметры (всего) | Активные | Эксперты | Top-K |
|---|---|---|---|---|
| Mixtral 8×7B | 47B | 13B | 8 | 2 |
| DeepSeek-V3 | 671B | 37B | 256 | 8 |
| Qwen2.5-MoE | 14.3B | 2.7B | 60 | 4 |
| Grok-1 | 314B | 86B | 8 | 2 |
Преимущества и сложности
Преимущества:
- Больше параметров → лучше качество при тех же FLOPS
- Линейное масштабирование числа экспертов
- Специализация экспертов по доменам
Сложности:
- VRAM: все эксперты в памяти, хотя активны только top-K
- Балансировка нагрузки: если все токены идут в одного эксперта — остальные простаивают
- Expert Parallelism: распределение экспертов по GPU требует all-to-all communication
- Инференс: непредсказуемый паттерн доступа к памяти
GPU-требования
MoE-модели требуют VRAM для всех параметров, не только активных:
Mixtral 8×7B (FP16): ~94 GB VRAM
→ 2× A100 80GB или 1× H200 141GB
DeepSeek-V3 (FP8): ~671 GB
→ 8× H100 80GB (Tensor Parallelism)
Для инференса MoE — VRAM критичнее вычислений. Низкая утилизация compute, высокие требования к bandwidth.