Железо и инфраструктура 27 просмотров

HBM

High Bandwidth Memory

HBM (High Bandwidth Memory) — тип памяти с высокой пропускной способностью, используемый в GPU для ML. Обеспечивает до 4.8 ТБ/с (HBM3e), критично для обучения и инференса больших моделей.

Что такое HBM

HBM (High Bandwidth Memory) — архитектура памяти, в которой микросхемы DRAM расположены вертикально (3D-стек) и соединены с GPU через широкую шину (1024+ бит). Это обеспечивает на порядок большую пропускную способность по сравнению с GDDR.

Поколения HBM

Поколение Bandwidth Применение
HBM2 900 ГБ/с V100 (32 GB)
HBM2e 2.0 ТБ/с A100 (80 GB)
HBM3 3.4 ТБ/с H100 (80 GB)
HBM3e 4.8 ТБ/с H200 (141 GB)

Почему HBM критична для ML

Производительность инференса LLM ограничена memory bandwidth, а не вычислениями. При авторегрессивной генерации каждый токен требует прочитать все веса модели из памяти.

Tokens per second ≈ Memory Bandwidth / Model Size

H100 (3.4 ТБ/с) + LLaMA 70B FP16 (140 GB):
≈ 3400 / 140 ≈ 24 токена/с (на 1 запрос)

A100 (2.0 ТБ/с) + LLaMA 70B FP16:
≈ 2000 / 140 ≈ 14 токенов/с

HBM vs GDDR

Параметр HBM3e GDDR6X
Bandwidth 4.8 ТБ/с 1.0 ТБ/с
Ёмкость до 192 GB до 24 GB
Энергоэффективность 3× лучше Ниже
Стоимость Высокая Умеренная

GDDR6X (RTX 4090) подходит для моделей малого/среднего размера. Для LLM 70B+ необходим HBM.

Связанные термины

Является частью

Попробуйте на практике

Арендуйте GPU и запустите ML-модели в Intelion Cloud

Начать работу