🔧 Железо и инфраструктура
GPU, память, сети, охлаждение — физическая основа ML-систем
CUDA
Compute Unified Device Architecture
CUDA — платформа параллельных вычислений NVIDIA, включающая SDK, компилятор (nvcc) и runtime. Каждая GPU имеет Compute Capability (CC) — версию аппаратных возможностей, определяющую совместимость с CUDA Toolkit и ML-фреймворками.
CUDA Cores
CUDA Cores
CUDA Cores — базовые параллельные вычислительные ядра в GPU NVIDIA, выполняющие операции с плавающей точкой. Тысячи ядер обеспечивают массивный параллелизм для ML-задач.
GPU
Graphics Processing Unit
GPU (Graphics Processing Unit) — специализированный процессор с массивно-параллельной архитектурой, ставший основным вычислительным устройством для обучения и инференса нейронных сетей.
HBM
High Bandwidth Memory
HBM (High Bandwidth Memory) — тип памяти с высокой пропускной способностью, используемый в GPU для ML. Обеспечивает до 4.8 ТБ/с (HBM3e), критично для обучения и инференса больших моделей.
InfiniBand
InfiniBand
InfiniBand — высокоскоростная сетевая технология для GPU-кластеров, обеспечивающая до 400 Гбит/с на порт с поддержкой RDMA. Стандарт де-факто для backend-сети в AI-суперкомпьютерах.
MIG
Multi-Instance GPU
MIG (Multi-Instance GPU) — технология NVIDIA для разделения одного GPU на несколько изолированных инстансов с гарантированными ресурсами. Доступна на A100, A30, H100, H200.
NVLink
NVLink
NVLink — высокоскоростной интерконнект NVIDIA для связи GPU между собой, обеспечивающий пропускную способность до 1800 ГБ/с (NVLink 5.0) и позволяющий объединять VRAM нескольких GPU.
RDMA
Remote Direct Memory Access
RDMA (Remote Direct Memory Access) — технология прямого доступа к памяти удалённого сервера без участия CPU. Ключевой компонент высокоскоростных сетей для распределённого ML-обучения.
Tensor Core
Tensor Core
Tensor Core — специализированное вычислительное ядро в GPU NVIDIA, выполняющее операции матричного умножения-сложения (MMA) за один такт, ускоряя обучение и инференс нейросетей в 2-8 раз.
VRAM
Video Random Access Memory
VRAM — видеопамять GPU, определяющая максимальный размер ML-модели, которую можно загрузить и обработать. Основной лимитирующий фактор при работе с большими языковыми моделями.
Иммерсионное охлаждение
Immersion Cooling
Иммерсионное охлаждение — технология, при которой серверы погружены в диэлектрическую жидкость, отводящую тепло напрямую от компонентов. Позволяет снизить PUE до 1.02-1.05 и увеличить плотность GPU.