🛠 MLOps и инструменты

Контейнеризация, оркестрация, мониторинг GPU, CI/CD для ML

All-Reduce

All-Reduce

All-Reduce — коллективная операция, суммирующая данные со всех GPU и раздающая результат каждому. Основной примитив синхронизации градиентов в Data Parallelism.

Fault Tolerance

Fault Tolerance / Checkpointing

Fault Tolerance — механизмы обеспечения устойчивости обучения LLM к сбоям: чекпоинтинг, автоматический рестарт, обнаружение зависаний. При обучении на сотнях GPU аппаратные сбои — не исключение, а норма.

MFU

Model FLOPS Utilization

MFU (Model FLOPS Utilization) — метрика эффективности GPU при обучении, показывающая долю пиковой производительности, реально используемой моделью. Хороший MFU для LLM: 40-60%.

NCCL

NVIDIA Collective Communications Library

NCCL — библиотека NVIDIA для коллективных операций между GPU. Обеспечивает All-Reduce, All-Gather и другие примитивы, необходимые для распределённого обучения.

NVIDIA Container Toolkit

NVIDIA Container Toolkit

NVIDIA Container Toolkit — набор утилит для использования GPU внутри Docker-контейнеров. Пробрасывает драйверы и устройства NVIDIA в контейнер, позволяя запускать CUDA-приложения без установки драйверов в образ.

Ray

Ray

Ray — фреймворк для распределённых вычислений в Python, предоставляющий инструменты для обучения (Ray Train), тюнинга гиперпараметров (Ray Tune), инференса (Ray Serve) и RL (RLlib).

Slurm

Slurm Workload Manager

Slurm — open-source менеджер задач для HPC-кластеров, управляющий очередями, распределением GPU и планированием multi-node обучения. Стандарт де-факто для GPU-кластеров в исследовательских лабораториях.

nvidia-smi

NVIDIA System Management Interface

nvidia-smi — утилита командной строки для мониторинга и управления GPU NVIDIA. Показывает утилизацию, потребление VRAM, температуру, мощность и запущенные процессы.

Файловые системы для ML

Storage / File Systems for ML

Выбор файловой системы критичен для производительности обучения: параллельные ФС (GPFS, Lustre, WekaIO) обеспечивают сохранение 2TB чекпоинта за 40 сек, тогда как NFS — за 20+ минут.