MLOps и инструменты
68 просмотров
MFU
Model FLOPS Utilization
MFU (Model FLOPS Utilization) — метрика эффективности GPU при обучении, показывающая долю пиковой производительности, реально используемой моделью. Хороший MFU для LLM: 40-60%.
Содержание
Что такое MFU
MFU — отношение реальной производительности обучения к пиковой теоретической производительности GPU.
MFU = Model FLOPS per step / (Peak GPU FLOPS × time per step)
Model FLOPS ≈ 6 × N × B × S (для трансформера)
N = параметры, B = batch size, S = seq length
Пример
7B модель, batch 32×4096, 8×H100 (989 TFLOPS BF16), 1.2 сек/step
Model FLOPS = 6 × 7B × 32 × 4096 = 5.5 × 10¹⁵
Peak = 8 × 989T = 7.9 × 10¹⁵ FLOPS/s
MFU = (5.5/1.2) / 7.9 = 58%
Типичные значения
| Конфигурация | MFU |
|---|---|
| Single GPU | 50-65% |
| 8 GPU (1 узел) | 45-55% |
| 64 GPU | 35-50% |
| 256+ GPU | 30-45% |
Как улучшить
- Увеличить batch size
- Tensor Parallelism внутри узла
- Communication overlap
- Flash Attention
- BF16/FP8
Связанные термины
Измеряется
Улучшает
Измеряет