🔧 Железо и инфраструктура

GPU, память, сети, охлаждение — физическая основа ML-систем

All-Reduce

All-Reduce

All-Reduce — коллективная операция, при которой каждый участник отправляет данные всем остальным и получает агрегированный результат (сумму). Основная операция синхронизации градиентов при распределённом обучении.

CUDA

Compute Unified Device Architecture

CUDA — платформа параллельных вычислений NVIDIA, включающая SDK, компилятор (nvcc) и runtime. Каждая GPU имеет Compute Capability (CC) — версию аппаратных возможностей, определяющую совместимость с CUDA Toolkit и ML-фреймворками.

GPU

Graphics Processing Unit

GPU (Graphics Processing Unit) — специализированный процессор с массивно-параллельной архитектурой, ставший основным вычислительным устройством для обучения и инференса нейронных сетей.

HBM

High Bandwidth Memory

HBM (High Bandwidth Memory) — тип памяти с высокой пропускной способностью, используемый в GPU для ML. Обеспечивает до 4.8 ТБ/с (HBM3e), критично для обучения и инференса больших моделей.

InfiniBand

InfiniBand

InfiniBand — высокоскоростная сетевая технология для GPU-кластеров, обеспечивающая до 400 Гбит/с на порт с поддержкой RDMA. Стандарт де-факто для backend-сети в AI-суперкомпьютерах.

NVLink

NVLink

NVLink — высокоскоростной интерконнект NVIDIA для связи GPU между собой, обеспечивающий пропускную способность до 1800 ГБ/с (NVLink 5.0) и позволяющий объединять VRAM нескольких GPU.

Tensor Core

Tensor Core

Tensor Core — специализированное вычислительное ядро в GPU NVIDIA, выполняющее операции матричного умножения-сложения (MMA) за один такт, ускоряя обучение и инференс нейросетей в 2-8 раз.

VRAM

Video Random Access Memory

VRAM — видеопамять GPU, определяющая максимальный размер ML-модели, которую можно загрузить и обработать. Основной лимитирующий фактор при работе с большими языковыми моделями.

Иммерсионное охлаждение

Immersion Cooling

Иммерсионное охлаждение — технология, при которой серверы погружены в диэлектрическую жидкость, отводящую тепло напрямую от компонентов. Позволяет снизить PUE до 1.02-1.05 и увеличить плотность GPU.