🔧 Железо и инфраструктура

GPU, память, сети, охлаждение — физическая основа ML-систем

CUDA

Compute Unified Device Architecture

CUDA — платформа параллельных вычислений NVIDIA, включающая SDK, компилятор (nvcc) и runtime. Каждая GPU имеет Compute Capability (CC) — версию аппаратных возможностей, определяющую совместимость с CUDA Toolkit и ML-фреймворками.

CUDA Cores

CUDA Cores

CUDA Cores — базовые параллельные вычислительные ядра в GPU NVIDIA, выполняющие операции с плавающей точкой. Тысячи ядер обеспечивают массивный параллелизм для ML-задач.

GPU

Graphics Processing Unit

GPU (Graphics Processing Unit) — специализированный процессор с массивно-параллельной архитектурой, ставший основным вычислительным устройством для обучения и инференса нейронных сетей.

HBM

High Bandwidth Memory

HBM (High Bandwidth Memory) — тип памяти с высокой пропускной способностью, используемый в GPU для ML. Обеспечивает до 4.8 ТБ/с (HBM3e), критично для обучения и инференса больших моделей.

InfiniBand

InfiniBand

InfiniBand — высокоскоростная сетевая технология для GPU-кластеров, обеспечивающая до 400 Гбит/с на порт с поддержкой RDMA. Стандарт де-факто для backend-сети в AI-суперкомпьютерах.

MIG

Multi-Instance GPU

MIG (Multi-Instance GPU) — технология NVIDIA для разделения одного GPU на несколько изолированных инстансов с гарантированными ресурсами. Доступна на A100, A30, H100, H200.

NVLink

NVLink

NVLink — высокоскоростной интерконнект NVIDIA для связи GPU между собой, обеспечивающий пропускную способность до 1800 ГБ/с (NVLink 5.0) и позволяющий объединять VRAM нескольких GPU.

RDMA

Remote Direct Memory Access

RDMA (Remote Direct Memory Access) — технология прямого доступа к памяти удалённого сервера без участия CPU. Ключевой компонент высокоскоростных сетей для распределённого ML-обучения.

Tensor Core

Tensor Core

Tensor Core — специализированное вычислительное ядро в GPU NVIDIA, выполняющее операции матричного умножения-сложения (MMA) за один такт, ускоряя обучение и инференс нейросетей в 2-8 раз.

VRAM

Video Random Access Memory

VRAM — видеопамять GPU, определяющая максимальный размер ML-модели, которую можно загрузить и обработать. Основной лимитирующий фактор при работе с большими языковыми моделями.

Иммерсионное охлаждение

Immersion Cooling

Иммерсионное охлаждение — технология, при которой серверы погружены в диэлектрическую жидкость, отводящую тепло напрямую от компонентов. Позволяет снизить PUE до 1.02-1.05 и увеличить плотность GPU.