MLOps и инструменты — Энциклопедия ML

Fault Tolerance

Fault Tolerance / Checkpointing

Fault Tolerance — механизмы обеспечения устойчивости обучения LLM к сбоям: чекпоинтинг, автоматический рестарт, обнаружение зависаний. При обучении на сотнях GPU аппаратные сбои — не исключение, а норма.

NCCL

NVIDIA Collective Communications Library

NCCL (NVIDIA Collective Communications Library) — библиотека для коллективных коммуникаций между GPU (All-Reduce, All-Gather и др.). Автоматически оптимизирует передачу данных через NVLink, PCIe и InfiniBand.

NVIDIA Container Toolkit

NVIDIA Container Toolkit — набор утилит для использования GPU внутри Docker-контейнеров. Пробрасывает драйверы и устройства NVIDIA в контейнер, позволяя запускать CUDA-приложения без установки драйверов в образ.

Ray

Ray — фреймворк для распределённых вычислений в Python, предоставляющий инструменты для обучения (Ray Train), тюнинга гиперпараметров (Ray Tune), инференса (Ray Serve) и RL (RLlib).

Slurm

Slurm Workload Manager

Slurm — open-source менеджер задач для HPC-кластеров, управляющий очередями, распределением GPU и планированием multi-node обучения. Стандарт де-факто для GPU-кластеров в исследовательских лабораториях.

nvidia-smi

NVIDIA System Management Interface

nvidia-smi — утилита командной строки для мониторинга и управления GPU NVIDIA. Показывает утилизацию, потребление VRAM, температуру, мощность и запущенные процессы.

Файловые системы для ML

Storage / File Systems for ML

Выбор файловой системы критичен для производительности обучения: параллельные ФС (GPFS, Lustre, WekaIO) обеспечивают сохранение 2TB чекпоинта за 40 сек, тогда как NFS — за 20+ минут.

🛠 MLOps и инструменты