MLOps и инструменты 88 просмотров

MFU

Model FLOPS Utilization

MFU (Model FLOPS Utilization) — метрика эффективности GPU при обучении, показывающая долю пиковой производительности, реально используемой моделью. Хороший MFU для LLM: 40-60%.

Содержание

Что такое MFU
Пример
Типичные значения
Как улучшить

Что такое MFU

MFU — отношение реальной производительности обучения к пиковой теоретической производительности GPU.

MFU = Model FLOPS per step / (Peak GPU FLOPS × time per step)

Model FLOPS ≈ 6 × N × B × S  (для трансформера)
  N = параметры, B = batch size, S = seq length

Пример

7B модель, batch 32×4096, 8×H100 (989 TFLOPS BF16), 1.2 сек/step
Model FLOPS = 6 × 7B × 32 × 4096 = 5.5 × 10¹⁵
Peak = 8 × 989T = 7.9 × 10¹⁵ FLOPS/s
MFU = (5.5/1.2) / 7.9 = 58%

Типичные значения

Конфигурация	MFU
Single GPU	50-65%
8 GPU (1 узел)	45-55%
64 GPU	35-50%
256+ GPU	30-45%

Как улучшить

Увеличить batch size
Tensor Parallelism внутри узла
Communication overlap
Flash Attention
BF16/FP8

Связанные термины

Измеряется

Tensor Core Distributed Training

Улучшает

Mixed Precision

Измеряет

Gradient Checkpointing

Попробуйте на практике

Арендуйте GPU и запустите ML-модели в Intelion Cloud

Начать работу