Железо и инфраструктура 27 просмотров

HBM

High Bandwidth Memory

HBM (High Bandwidth Memory) — тип памяти с высокой пропускной способностью, используемый в GPU для ML. Обеспечивает до 4.8 ТБ/с (HBM3e), критично для обучения и инференса больших моделей.

Содержание

Что такое HBM
Поколения HBM
Почему HBM критична для ML
HBM vs GDDR

Что такое HBM

HBM (High Bandwidth Memory) — архитектура памяти, в которой микросхемы DRAM расположены вертикально (3D-стек) и соединены с GPU через широкую шину (1024+ бит). Это обеспечивает на порядок большую пропускную способность по сравнению с GDDR.

Поколения HBM

Поколение	Bandwidth	Применение
HBM2	900 ГБ/с	V100 (32 GB)
HBM2e	2.0 ТБ/с	A100 (80 GB)
HBM3	3.4 ТБ/с	H100 (80 GB)
HBM3e	4.8 ТБ/с	H200 (141 GB)

Почему HBM критична для ML

Производительность инференса LLM ограничена memory bandwidth, а не вычислениями. При авторегрессивной генерации каждый токен требует прочитать все веса модели из памяти.

Tokens per second ≈ Memory Bandwidth / Model Size

H100 (3.4 ТБ/с) + LLaMA 70B FP16 (140 GB):
≈ 3400 / 140 ≈ 24 токена/с (на 1 запрос)

A100 (2.0 ТБ/с) + LLaMA 70B FP16:
≈ 2000 / 140 ≈ 14 токенов/с

HBM vs GDDR

Параметр	HBM3e	GDDR6X
Bandwidth	4.8 ТБ/с	1.0 ТБ/с
Ёмкость	до 192 GB	до 24 GB
Энергоэффективность	3× лучше	Ниже
Стоимость	Высокая	Умеренная

GDDR6X (RTX 4090) подходит для моделей малого/среднего размера. Для LLM 70B+ необходим HBM.

Связанные термины

Является частью

VRAM

Попробуйте на практике

Арендуйте GPU и запустите ML-модели в Intelion Cloud

Начать работу