Железо и инфраструктура
27 просмотров
HBM
High Bandwidth Memory
HBM (High Bandwidth Memory) — тип памяти с высокой пропускной способностью, используемый в GPU для ML. Обеспечивает до 4.8 ТБ/с (HBM3e), критично для обучения и инференса больших моделей.
Что такое HBM
HBM (High Bandwidth Memory) — архитектура памяти, в которой микросхемы DRAM расположены вертикально (3D-стек) и соединены с GPU через широкую шину (1024+ бит). Это обеспечивает на порядок большую пропускную способность по сравнению с GDDR.
Поколения HBM
| Поколение | Bandwidth | Применение |
|---|---|---|
| HBM2 | 900 ГБ/с | V100 (32 GB) |
| HBM2e | 2.0 ТБ/с | A100 (80 GB) |
| HBM3 | 3.4 ТБ/с | H100 (80 GB) |
| HBM3e | 4.8 ТБ/с | H200 (141 GB) |
Почему HBM критична для ML
Производительность инференса LLM ограничена memory bandwidth, а не вычислениями. При авторегрессивной генерации каждый токен требует прочитать все веса модели из памяти.
Tokens per second ≈ Memory Bandwidth / Model Size
H100 (3.4 ТБ/с) + LLaMA 70B FP16 (140 GB):
≈ 3400 / 140 ≈ 24 токена/с (на 1 запрос)
A100 (2.0 ТБ/с) + LLaMA 70B FP16:
≈ 2000 / 140 ≈ 14 токенов/с
HBM vs GDDR
| Параметр | HBM3e | GDDR6X |
|---|---|---|
| Bandwidth | 4.8 ТБ/с | 1.0 ТБ/с |
| Ёмкость | до 192 GB | до 24 GB |
| Энергоэффективность | 3× лучше | Ниже |
| Стоимость | Высокая | Умеренная |
GDDR6X (RTX 4090) подходит для моделей малого/среднего размера. Для LLM 70B+ необходим HBM.
Связанные термины
Является частью