Question 1

Что такое DeepSpeed и зачем он нужен?

Accepted Answer

DeepSpeed — open‑source библиотека от Microsoft для оптимизации distributed training больших моделей. Решает три задачи: (1) помещает модели, не влезающие в одну GPU (ZeRO, offload), (2) ускоряет тренировку на кластере (3D parallelism, FP8), (3) удешевляет inference (DeepSpeed‑Inference, MII). Совместим с PyTorch и HuggingFace.

Question 2

В чём отличие ZeRO‑1, ZeRO‑2 и ZeRO‑3?

Accepted Answer

ZeRO‑1 шардирует только состояние оптимизатора (Adam moments) — экономия ~4×. ZeRO‑2 добавляет шардирование градиентов — ~8×. ZeRO‑3 шардирует ещё и веса модели — линейный рост памяти по числу GPU, но дороже по коммуникациям. Для моделей до 13B хватает ZeRO‑2; для 30B+ — нужен ZeRO‑3 или Pipeline Parallel.

Question 3

Какая GPU нужна для DeepSpeed?

Accepted Answer

Зависит от модели. 7B fine‑tune — одной A100 80 ГБ хватает в ZeRO‑2. 13B full fine‑tune — A100 80 ГБ + ZeRO‑Offload (нужно 256 ГБ RAM). 70B — кластер 8× A100 80 ГБ с ZeRO‑3. Pre‑training 100B+ — multi‑node H100 с InfiniBand. Для LoRA на 7B хватит RTX 4090 48 ГБ.

Question 4

DeepSpeed vs FSDP — что выбрать?

Accepted Answer

FSDP (PyTorch native) — проще в интеграции, лучше поддержка torch.compile, активнее развивается с 2024. DeepSpeed — мощнее по features (ZeRO‑Infinity, Pipeline, MoE, MII inference), но сложнее в настройке. Для большинства fine‑tune задач FSDP достаточно. Для pre‑training, MoE, RLHF и 1T+ моделей — DeepSpeed.

Question 5

Можно использовать DeepSpeed коммерчески?

Accepted Answer

Да. DeepSpeed лицензирован под Apache 2.0 — разрешено использование в коммерческих продуктах, модификация, встраивание в собственные сервисы. Достаточно сохранить копирайт‑заголовок Microsoft в форках.

Question 6

Что такое ZeRO‑Offload и когда его включать?

Accepted Answer

Сброс состояния оптимизатора и опционально градиентов из VRAM в CPU RAM. Включаем, когда модель не влезает в GPU. Цена — замедление шага в 1.5–2× из‑за PCIe‑копирования. Требует минимум 256 ГБ RAM для 13B и 512+ ГБ для 30B. ZeRO‑Infinity — расширение на NVMe (тренировка 1T моделей).

Question 7

Как DeepSpeed работает с HuggingFace Trainer?

Accepted Answer

Drop‑in: добавьте deepspeed="ds_config.json" в TrainingArguments и запустите через deepspeed train.py вместо python3. Trainer сам подхватит конфиг, обернёт оптимизатор и модель. Через accelerate config можно сгенерировать ds_config интерактивно.

Question 8

Сколько длится запуск сервера с DeepSpeed?

Accepted Answer

Сервер готов за 3–5 минут после оплаты. Установка DeepSpeed (pip install deepspeed) — 2–3 минуты с компиляцией кастомных CUDA‑ядер при первом запуске. Итого 5–10 минут до первого train step. Подключение по SSH — в инструкции.

Question 9

Поддерживается ли FP8 на H100?

Accepted Answer

Да. DeepSpeed интегрирован с NVIDIA Transformer Engine и поддерживает FP8 для линейных слоёв на Hopper (H100/H200). Прирост — до 2× к BF16 при сохранении сходимости. На A100 (Ampere) FP8 не поддерживается, только BF16/FP16.

Question 10

Сколько стоит fine‑tune Llama 3 70B на Intelion?

Accepted Answer

Full fine‑tune Llama 3 70B (LoRA): на 1× A100 80 ГБ в ZeRO‑3 + offload — 30–60 часов. ZeRO‑3 без Pipeline на этом размере упирается в PCIe — оптимально брать 2–4× A100 и считать в ~12–24 часа. Цена считается посекундно — остановили обучение, счётчик замер. Точная стоимость — в конфигураторе.

Question 11

Можно с юрлица, с закрывающими документами?

Accepted Answer

Да. Работаем с ООО/ИП по договору, оплата по счёту, НДС, ЭДО через Диадок/СБИС. В блоке «Тестовый период для бизнеса» — оператор и ID для ЭДО.

Аренда GPU для DeepSpeed
запуск за 5 минут,
от 168 ₽/час

Популярные задачи наших клиентов

Pre‑training LLM с нуля

Full fine‑tune 70B+ моделей

Тренировка MoE‑моделей

Как арендовать сервер с Tesla A100

Соберите сервер

Создайте аккаунт

Пополните баланс

Запустите сервер

Платите только за время

Скидки за долгий срок аренды

Смена конфига на лету

Что умеет DeepSpeed

ZeRO‑1 / ZeRO‑2 / ZeRO‑3

ZeRO‑Offload

ZeRO‑Infinity

Pipeline Parallelism

Tensor Parallelism + 3D

MoE Support

FP16 / BF16 / FP8

DeepSpeed‑Inference + MII

Запустите одной командой

Выберите конфигурацию сервера

Тестовый период
для бизнеса

Почему арендуют у нас

Серверы работают , мы следим

Платите только за вычисления

Поддержка, а не тикет-система

Вопросы и ответы

DeepSpeed на вашем GPU
От 168 ₽/час, посекундная оплата.

Аренда GPU для DeepSpeed запуск за 5 минут, от 168 ₽/час