Microsoft · Apache 2.0 · distributed training

Аренда GPU для DeepSpeed
запуск за 5 минут,
от 168 ₽/час

Тренируйте и файнтюньте модели от 7B до 1T+ параметров. ZeRO, Pipeline и Tensor Parallelism, MoE, FP8 — на A100 80 ГБ и кластерах из нескольких GPU.

Серверы в РФ (Самарская обл.) Оплата картой РФ, СБП, по счёту

Популярные задачи наших клиентов

Pre‑training LLM с нуля

DeepSpeed — основа BLOOM 176B, Megatron‑Turing 530B, GLM‑130B. ZeRO‑3 + 3D Parallelism позволяет тренировать модели 70B+ на собственном кластере.

Full fine‑tune 70B+ моделей

Дообучение Llama 3 70B, Qwen3‑72B, DeepSeek‑V3 без LoRA. ZeRO‑3 + CPU offload помещает full fine‑tune Llama 70B на 8× A100 80 ГБ.

Тренировка MoE‑моделей

DeepSpeed‑MoE: expert parallelism, gating, all‑to‑all routing. Используется в DeepSeek‑V3, Mixtral. До 5× ускорение против dense моделей того же качества.

Другая задача? Напишите нам — подберём конфигурацию.

4 шага до запуска

Как арендовать сервер с Tesla A100

От регистрации до запуска — меньше 10 минут. Без звонков менеджеру и подписания договоров.

1

Соберите сервер

Выберите GPU, объем диска, операционную систему и тариф в конфигураторе.

2

Создайте аккаунт

Простая регистрация через Яндекс-ID, Т-Банк или электронную почту.

3

Пополните баланс

Картой или по счёту для юрлиц. Средства зачисляются мгновенно.

Запустите сервер

И он будет готов через пару минут. Подключайтесь по SSH, RDP или прямо в браузере.

Платите только за время

Остановите сервер в любой момент и неиспользованные деньги вернутся на баланс.

Скидки за долгий срок аренды

При аренде от 3-х месяцев вы получаете скидку от 5% до 25%.

Смена конфига на лету

Начните с CPU‑сервера, затем подключите GPU для тяжёлых задач.

Что умеет DeepSpeed

ZeRO‑1 / ZeRO‑2 / ZeRO‑3

Шардирование оптимизатора, градиентов и весов между GPU. ZeRO‑3 даёт линейный рост по памяти: 70B модель тренируется на 8× A100 80 ГБ без Tensor Parallel.

ZeRO‑Offload

Сброс оптимизатора и градиентов в CPU RAM. На одной A100 80 ГБ + 256 ГБ RAM влезает full fine‑tune модели до 13B параметров.

ZeRO‑Infinity

Расширение ZeRO с offload на NVMe. Тренировка моделей до 1T+ параметров на кластере GPU за счёт NVMe‑своппинга. Linear scaling по числу узлов.

Pipeline Parallelism

Разбиение модели по слоям между GPU. 1F1B‑расписание минимизирует bubble‑overhead. Идеально для dense‑моделей 30B+, где ZeRO‑3 упирается в коммуникации.

Tensor Parallelism + 3D

Разбиение каждого слоя по GPU (Megatron‑style). Комбинируется с Pipeline + ZeRO в 3D Parallelism — стандарт для тренировки LLM 100B+ на кластерах.

MoE Support

DeepSpeed‑MoE: тренировка и инференс Mixture‑of‑Experts моделей (Switch Transformer, DeepSeek‑MoE, Mixtral). Expert parallelism, tutel‑совместимость, до 5× ускорение на инференсе.

FP16 / BF16 / FP8

Mixed precision из коробки. Поддержка FP8 на H100/H200 (Transformer Engine) — до 2× быстрее BF16 при сохранении точности на LLM.

DeepSpeed‑Inference + MII

Отдельный inference‑движок с tensor parallelism, kernel injection и continuous batching. DeepSpeed‑MII — managed deployment поверх, до 6× быстрее vLLM на некоторых нагрузках.

4 способа запуска

Запустите одной командой

После создания сервера подключитесь по SSH и выберите подходящий инструмент.

Базовая установка DeepSpeed и запуск тренировки через deepspeed launcher с JSON‑конфигом ZeRO‑3. Требуется CUDA 12.x, PyTorch ≥ 2.3.

# В Ubuntu 24 системный Python managed — ставим в venv:
python3 -m venv /opt/ds && source /opt/ds/bin/activate
pip install torch --index-url https://download.pytorch.org/whl/cu121
pip install deepspeed transformers datasets accelerate

# ds_config.json (ZeRO-3 + BF16):
cat > ds_config.json <<'EOF'
{
  "train_batch_size": 32,
  "gradient_accumulation_steps": 4,
  "bf16": {"enabled": true},
  "zero_optimization": {
    "stage": 3,
    "offload_optimizer": {"device": "cpu"},
    "overlap_comm": true,
    "contiguous_gradients": true
  }
}
EOF

# Запуск на 1 GPU (A100 80GB):
deepspeed --num_gpus=1 train.py --deepspeed ds_config.json
Запустить DeepSpeed

~168 ₽/час · посекундная оплата

Выберите конфигурацию сервера

Укажите параметры и запустите сервер за несколько минут

Тестовый запуск

Тестовый период
для бизнеса

Мы уверены в железе — поэтому даём потестировать до покупки.
Подключитесь по ЭДО, напишите нам, и мы обсудим условия тестового запуска.

Как получить:

  • 1 Подключитесь к нам по ЭДО
  • 2 Напишите нам
  • 3 Получите сервер с Tesla A100

Данные для подключения по ЭДО:

Оператор: АО «Калуга Астрал»

ID: 2AEE383BDF8-E70C-4F74-9E7E-995E8AC21999

Написать нам

Почему арендуют у нас

Серверы работают , мы следим

Мониторинг оборудования 24/7. Неисправный компонент заменим по гарантии без доплат.

Платите только за вычисления

Посекундная тарификация. Выключили сервер — счётчик остановился, данные на диске сохраняются. Скидки до 25% при оплате за 12 месяцев.

Поддержка, а не тикет-система

Сразу инженер, который разбирается в CUDA, PyTorch и настройке GPU-серверов. Ответ — до 15 минут.

Вопросы и ответы

DeepSpeed — open‑source библиотека от Microsoft для оптимизации distributed training больших моделей. Решает три задачи: (1) помещает модели, не влезающие в одну GPU (ZeRO, offload), (2) ускоряет тренировку на кластере (3D parallelism, FP8), (3) удешевляет inference (DeepSpeed‑Inference, MII). Совместим с PyTorch и HuggingFace.

ZeRO‑1 шардирует только состояние оптимизатора (Adam moments) — экономия ~4×. ZeRO‑2 добавляет шардирование градиентов — ~8×. ZeRO‑3 шардирует ещё и веса модели — линейный рост памяти по числу GPU, но дороже по коммуникациям. Для моделей до 13B хватает ZeRO‑2; для 30B+ — нужен ZeRO‑3 или Pipeline Parallel.

Зависит от модели. 7B fine‑tune — одной A100 80 ГБ хватает в ZeRO‑2. 13B full fine‑tune — A100 80 ГБ + ZeRO‑Offload (нужно 256 ГБ RAM). 70B — кластер 8× A100 80 ГБ с ZeRO‑3. Pre‑training 100B+ — multi‑node H100 с InfiniBand. Для LoRA на 7B хватит RTX 4090 48 ГБ.

FSDP (PyTorch native) — проще в интеграции, лучше поддержка torch.compile, активнее развивается с 2024. DeepSpeed — мощнее по features (ZeRO‑Infinity, Pipeline, MoE, MII inference), но сложнее в настройке. Для большинства fine‑tune задач FSDP достаточно. Для pre‑training, MoE, RLHF и 1T+ моделей — DeepSpeed.

Да. DeepSpeed лицензирован под Apache 2.0 — разрешено использование в коммерческих продуктах, модификация, встраивание в собственные сервисы. Достаточно сохранить копирайт‑заголовок Microsoft в форках.

Сброс состояния оптимизатора и опционально градиентов из VRAM в CPU RAM. Включаем, когда модель не влезает в GPU. Цена — замедление шага в 1.5–2× из‑за PCIe‑копирования. Требует минимум 256 ГБ RAM для 13B и 512+ ГБ для 30B. ZeRO‑Infinity — расширение на NVMe (тренировка 1T моделей).

Drop‑in: добавьте deepspeed="ds_config.json" в TrainingArguments и запустите через deepspeed train.py вместо python3. Trainer сам подхватит конфиг, обернёт оптимизатор и модель. Через accelerate config можно сгенерировать ds_config интерактивно.

Сервер готов за 3–5 минут после оплаты. Установка DeepSpeed (pip install deepspeed) — 2–3 минуты с компиляцией кастомных CUDA‑ядер при первом запуске. Итого 5–10 минут до первого train step. Подключение по SSH — в инструкции.

Да. DeepSpeed интегрирован с NVIDIA Transformer Engine и поддерживает FP8 для линейных слоёв на Hopper (H100/H200). Прирост — до 2× к BF16 при сохранении сходимости. На A100 (Ampere) FP8 не поддерживается, только BF16/FP16.

Full fine‑tune Llama 3 70B (LoRA): на 1× A100 80 ГБ в ZeRO‑3 + offload — 30–60 часов. ZeRO‑3 без Pipeline на этом размере упирается в PCIe — оптимально брать 2–4× A100 и считать в ~12–24 часа. Цена считается посекундно — остановили обучение, счётчик замер. Точная стоимость — в конфигураторе.

Да. Работаем с ООО/ИП по договору, оплата по счёту, НДС, ЭДО через Диадок/СБИС. В блоке «Тестовый период для бизнеса» — оператор и ID для ЭДО.

DeepSpeed на вашем GPU
От 168 ₽/час, посекундная оплата.

Оплата в рублях, посекундно. Поддержка 24/7. Запуск за 5 минут.