Железо и инфраструктура 17 просмотров

InfiniBand

InfiniBand — высокоскоростная сетевая технология для GPU-кластеров, обеспечивающая до 400 Гбит/с на порт с поддержкой RDMA. Стандарт де-факто для backend-сети в AI-суперкомпьютерах.

Содержание

Что такое InfiniBand
Поколения
Зачем InfiniBand для ML
Backend vs Frontend сеть
RDMA
Диагностика проблем

Что такое InfiniBand

InfiniBand (IB) — сетевая технология, разработанная для HPC и AI-кластеров. Обеспечивает прямой доступ к памяти удалённого узла (RDMA) без участия CPU, что критично для распределённого обучения.

Поколения

Стандарт	Скорость на порт	Типичная конфигурация	Пример
EDR	100 Gbps	4× = 400 Gbps	Старые кластеры
HDR	200 Gbps	4× = 800 Gbps	A100 кластеры
NDR	400 Gbps	4× = 1600 Gbps	H100 кластеры
XDR	800 Gbps	4× = 3200 Gbps	B200 кластеры

Зачем InfiniBand для ML

При распределённом обучении GPU обмениваются градиентами через коллективные операции (All-Reduce, All-Gather). Скорость сети напрямую определяет, какую долю времени GPU реально вычисляют, а какую — ждут данных.

Пример: обучение 70B модели на 64 GPU (8 нод). На каждом шаге нужно синхронизировать ~140 GB градиентов.
- InfiniBand NDR (400 Gbps): ~3 сек на All-Reduce
- Ethernet 100 Gbps: ~12 сек
- При forward+backward ~10 сек → InfiniBand: 77% MFU, Ethernet: 45% MFU

Backend vs Frontend сеть

В AI-кластере две сети:

Сеть	Назначение	Типичная скорость
Backend	GPU-to-GPU (All-Reduce, TP)	400-3200 Gbps (InfiniBand)
Frontend	Интернет, NFS, оркестрация	100-400 Gbps (Ethernet)

Backend-сеть — самая дорогая и важная часть кластера. По данным из практики Stas Bekman (BLOOM-176B), узкие места в InfiniBand-фабрике (плохие кабели, баги маршрутизации) могут снижать производительность в 100× на отдельных маршрутах.

RDMA

InfiniBand поддерживает RDMA (Remote Direct Memory Access) — данные передаются напрямую из GPU-памяти одного узла в GPU-память другого, минуя CPU, ОС и кэши. Это ключевое преимущество перед TCP/IP.

Альтернатива: RoCE v2 (RDMA over Converged Ethernet) — RDMA поверх Ethernet. Дешевле, но менее надёжно и медленнее при высокой нагрузке.

Диагностика проблем

# Счётчик ошибок (главный индикатор проблем)
perfquery -x | grep symbol_errors

# Пропускная способность
ib_write_bw --size=4096 --duration=10

# NCCL тест (реальная производительность для ML)
mpirun --npernode 8 ./all_reduce_perf -b 1G -e 8G -g 1

Ключевой совет: мониторьте symbol_errors автоматически — это первый признак деградации кабеля или порта.

Связанные термины

Альтернатива

NVLink

Используется в

All-Reduce

Необходим для

Pipeline Parallelism NCCL

Попробуйте на практике

Арендуйте GPU и запустите ML-модели в Intelion Cloud

Начать работу