MLOps и инструменты 88 просмотров

MFU

Model FLOPS Utilization

MFU (Model FLOPS Utilization) — метрика эффективности GPU при обучении, показывающая долю пиковой производительности, реально используемой моделью. Хороший MFU для LLM: 40-60%.

Что такое MFU

MFU — отношение реальной производительности обучения к пиковой теоретической производительности GPU.

MFU = Model FLOPS per step / (Peak GPU FLOPS × time per step)

Model FLOPS ≈ 6 × N × B × S  (для трансформера)
  N = параметры, B = batch size, S = seq length

Пример

7B модель, batch 32×4096, 8×H100 (989 TFLOPS BF16), 1.2 сек/step
Model FLOPS = 6 × 7B × 32 × 4096 = 5.5 × 10¹⁵
Peak = 8 × 989T = 7.9 × 10¹⁵ FLOPS/s
MFU = (5.5/1.2) / 7.9 = 58%

Типичные значения

Конфигурация MFU
Single GPU 50-65%
8 GPU (1 узел) 45-55%
64 GPU 35-50%
256+ GPU 30-45%

Как улучшить

  1. Увеличить batch size
  2. Tensor Parallelism внутри узла
  3. Communication overlap
  4. Flash Attention
  5. BF16/FP8

Связанные термины

Улучшает
Измеряет

Попробуйте на практике

Арендуйте GPU и запустите ML-модели в Intelion Cloud

Начать работу