Архитектуры моделей 47 просмотров

MoE

Mixture of Experts

MoE (Mixture of Experts) — архитектура нейросети, где каждый вход обрабатывается только частью параметров (экспертами), выбранных роутером. Позволяет масштабировать модель без пропорционального роста вычислений.

Содержание

Что такое MoE
Как работает
Примеры MoE-моделей
Преимущества и сложности
GPU-требования

Что такое MoE

MoE (Mixture of Experts) — архитектурный паттерн, при котором слой FFN (Feed-Forward Network) в трансформере заменяется набором «экспертов» — отдельных FFN-блоков. Для каждого токена роутер выбирает только top-K экспертов (обычно 2 из 8-64), остальные не активируются.

Как работает

Входной токен
      ↓
  [Router / Gate]  ← обучаемая сеть маршрутизации
   /    |    \
Exp1  Exp2  ...ExpN   ← N независимых FFN-блоков
   \    |    /
  Взвешенная сумма top-K
      ↓
  Выходной токен

Ключевая идея: модель с 100B общих параметров при top-2 из 8 экспертов использует только ~25B параметров на токен. Вычислительная стоимость — как у модели 25B, а качество — как у 100B.

Примеры MoE-моделей

Модель	Параметры (всего)	Активные	Эксперты	Top-K
Mixtral 8×7B	47B	13B	8	2
DeepSeek-V3	671B	37B	256	8
Qwen2.5-MoE	14.3B	2.7B	60	4
Grok-1	314B	86B	8	2

Преимущества и сложности

Преимущества:
- Больше параметров → лучше качество при тех же FLOPS
- Линейное масштабирование числа экспертов
- Специализация экспертов по доменам

Сложности:
- VRAM: все эксперты в памяти, хотя активны только top-K
- Балансировка нагрузки: если все токены идут в одного эксперта — остальные простаивают
- Expert Parallelism: распределение экспертов по GPU требует all-to-all communication
- Инференс: непредсказуемый паттерн доступа к памяти

GPU-требования

MoE-модели требуют VRAM для всех параметров, не только активных:

Mixtral 8×7B (FP16): ~94 GB VRAM
  → 2× A100 80GB или 1× H200 141GB

DeepSeek-V3 (FP8): ~671 GB
  → 8× H100 80GB (Tensor Parallelism)

Для инференса MoE — VRAM критичнее вычислений. Низкая утилизация compute, высокие требования к bandwidth.

Связанные термины

Является частью

Self-Attention

Попробуйте на практике

Арендуйте GPU и запустите ML-модели в Intelion Cloud

Начать работу