🛠 MLOps и инструменты
Контейнеризация, оркестрация, мониторинг GPU, CI/CD для ML
Fault Tolerance
Fault Tolerance / Checkpointing
Fault Tolerance — механизмы обеспечения устойчивости обучения LLM к сбоям: чекпоинтинг, автоматический рестарт, обнаружение зависаний. При обучении на сотнях GPU аппаратные сбои — не исключение, а норма.
NCCL
NVIDIA Collective Communications Library
NCCL (NVIDIA Collective Communications Library) — библиотека для коллективных коммуникаций между GPU (All-Reduce, All-Gather и др.). Автоматически оптимизирует передачу данных через NVLink, PCIe и InfiniBand.
NVIDIA Container Toolkit
NVIDIA Container Toolkit
NVIDIA Container Toolkit — набор утилит для использования GPU внутри Docker-контейнеров. Пробрасывает драйверы и устройства NVIDIA в контейнер, позволяя запускать CUDA-приложения без установки драйверов в образ.
Ray
Ray
Ray — фреймворк для распределённых вычислений в Python, предоставляющий инструменты для обучения (Ray Train), тюнинга гиперпараметров (Ray Tune), инференса (Ray Serve) и RL (RLlib).
Slurm
Slurm Workload Manager
Slurm — open-source менеджер задач для HPC-кластеров, управляющий очередями, распределением GPU и планированием multi-node обучения. Стандарт де-факто для GPU-кластеров в исследовательских лабораториях.
nvidia-smi
NVIDIA System Management Interface
nvidia-smi — утилита командной строки для мониторинга и управления GPU NVIDIA. Показывает утилизацию, потребление VRAM, температуру, мощность и запущенные процессы.
Файловые системы для ML
Storage / File Systems for ML
Выбор файловой системы критичен для производительности обучения: параллельные ФС (GPFS, Lustre, WekaIO) обеспечивают сохранение 2TB чекпоинта за 40 сек, тогда как NFS — за 20+ минут.