Meta AI · BSD-3 · фреймворк

Аренда GPU для PyTorch
запуск за 5 минут,
от 168 ₽/час

Pre-training, fine-tuning и инференс на PyTorch 2.11 — torch.compile, FSDP2, FlexAttention с FlashAttention‑4 из коробки. CUDA 13 / 12.8, NVIDIA NGC‑образы, экосистема TorchVision/TorchAudio/TorchTune.

Серверы в РФ (Самарская обл.) Оплата картой РФ, СБП, по счёту

Популярные задачи наших клиентов

Pre-training больших моделей

FSDP2 + torch.compile + Tensor Parallel позволяют тренировать LLM 7B–70B на нескольких A100/H100. TorchTitan — референсный стек для Llama‑3 405B.

Fine-tuning LLM (LoRA / QLoRA)

TorchTune, PEFT, TRL поверх PyTorch. LoRA на Llama‑3‑8B влезает на одну A100 80GB за 6–12 часов. QLoRA на 4‑bit base — даже на RTX 4090 48GB.

Тренировка CV-моделей

TorchVision: ResNet, ViT, DETR, Mask R‑CNN из коробки. Diffusers (Stable Diffusion, FLUX) — для image gen. Mixed precision + FlashAttention на A100/H100.

Другая задача? Напишите нам — подберём конфигурацию.

4 шага до запуска

Как арендовать сервер с Tesla A100

От регистрации до запуска — меньше 10 минут. Без звонков менеджеру и подписания договоров.

1

Соберите сервер

Выберите GPU, объем диска, операционную систему и тариф в конфигураторе.

2

Создайте аккаунт

Простая регистрация через Яндекс-ID, Т-Банк или электронную почту.

3

Пополните баланс

Картой или по счёту для юрлиц. Средства зачисляются мгновенно.

Запустите сервер

И он будет готов через пару минут. Подключайтесь по SSH, RDP или прямо в браузере.

Платите только за время

Остановите сервер в любой момент и неиспользованные деньги вернутся на баланс.

Скидки за долгий срок аренды

При аренде от 3-х месяцев вы получаете скидку от 5% до 25%.

Смена конфига на лету

Начните с CPU‑сервера, затем подключите GPU для тяжёлых задач.

Что умеет PyTorch

torch.compile — JIT-компиляция графа

Один декоратор @torch.compile ускоряет тренировку и инференс на 10–60% за счёт fusion‑оптимизаций через TorchInductor. В PyTorch 2.11 поддержка Python 3.10–3.14, set_stance API и triton_op.

FSDP2 — шардирование параметров

Fully Sharded Data Parallel второго поколения: per‑parameter sharding, sharded state dicts, нативная интеграция с torch.compile. Тренировка моделей 70B+ на нескольких GPU без OOM.

Distributed training — DDP, TP, PP

Data Parallel, Tensor Parallel, Pipeline Parallel из коробки. torch.distributed + NCCL для multi‑GPU и multi‑node. TorchTitan — референс для Llama‑3 405B.

FlexAttention с FlashAttention‑4

Нативный SDPA c FlashAttention‑2 backend для классической attention. FlexAttention API в PyTorch 2.11 на Hopper/Blackwell использует FlashAttention‑4 backend (1.2–3.2× к Triton) для произвольных паттернов: ALiBi, sliding window, PagedAttention, soft‑capping.

Mixed Precision — BF16, FP16, FP8

torch.amp с автоматическим autocast. На H100 — нативный FP8 через TransformerEngine. Экономия VRAM в 2× и ускорение тренировки в 1.5–3× против FP32.

Экосистема: TorchVision, TorchAudio, TorchTune

TorchVision — CV‑модели и трансформации, TorchAudio — speech, TorchTune — официальный фреймворк fine‑tuning LLM, TorchRL — reinforcement learning. Всё под одним API.

CUDA 13, ROCm 6, MPS, XPU

Официальные сборки под NVIDIA (CUDA 13 default, CUDA 12.8 alt), AMD (ROCm 6.x), Intel XPU и Apple Silicon (MPS). Один код — любой бэкенд через device-agnostic API.

Production: TorchScript, ONNX, AOTInductor

Экспорт в TorchScript для C++ инференса, ONNX для interop‑деплоя, AOTInductor — ahead‑of‑time компиляция в .so. Готово для serving через TorchServe, Triton, vLLM.

4 способа запуска

Запустите одной командой

После создания сервера подключитесь по SSH и выберите подходящий инструмент.

Официальный wheel под CUDA 13 (default) или 12.8. В Ubuntu 24 системный Python — managed, ставим в venv. Подходит для обучения, fine‑tuning, инференса.

# Создаём venv (Ubuntu 24 PEP 668)
python3 -m venv /opt/torch && source /opt/torch/bin/activate
pip install --upgrade pip
# PyTorch 2.11 + CUDA 12.8 (под драйверы 570.x, проверено)
pip install torch torchvision torchaudio \
  --index-url https://download.pytorch.org/whl/cu128
# Альтернатива — CUDA 13.0 (только драйверы 580+):
# pip install torch torchvision torchaudio  # default = cu130
# Проверка GPU
python3 -c 'import torch; print(torch.__version__, torch.cuda.is_available(), torch.cuda.get_device_name(0))'
Запустить PyTorch

~168 ₽/час · посекундная оплата

Выберите конфигурацию сервера

Укажите параметры и запустите сервер за несколько минут

Тестовый запуск

Тестовый период
для бизнеса

Мы уверены в железе — поэтому даём потестировать до покупки.
Подключитесь по ЭДО, напишите нам, и мы обсудим условия тестового запуска.

Как получить:

  • 1 Подключитесь к нам по ЭДО
  • 2 Напишите нам
  • 3 Получите сервер с Tesla A100

Данные для подключения по ЭДО:

Оператор: АО «Калуга Астрал»

ID: 2AEE383BDF8-E70C-4F74-9E7E-995E8AC21999

Написать нам

Почему арендуют у нас

Серверы работают , мы следим

Мониторинг оборудования 24/7. Неисправный компонент заменим по гарантии без доплат.

Платите только за вычисления

Посекундная тарификация. Выключили сервер — счётчик остановился, данные на диске сохраняются. Скидки до 25% при оплате за 12 месяцев.

Поддержка, а не тикет-система

Сразу инженер, который разбирается в CUDA, PyTorch и настройке GPU-серверов. Ответ — до 15 минут.

Вопросы и ответы

Стабильная — PyTorch 2.11 (март 2026). Основное: CUDA 13 как default, FlexAttention с FlashAttention‑4 backend на Hopper/Blackwell (1.2–3.2× к Triton), Differentiable Collectives для distributed‑тренировки, расширенный MPS на Apple Silicon, поддержка Python 3.10–3.14. TorchScript объявлен legacy — переход на torch.export. Релизы — на GitHub.

Да. PyTorch распространяется под BSD‑3‑Clause — одна из самых либеральных open‑source лицензий. Можно встраивать в коммерческий продукт, продавать, модифицировать без обязательства открывать исходники. Проект под управлением PyTorch Foundation (Linux Foundation).

Для большинства задач — A100 80 ГБ: влезает Llama‑3‑8B fine‑tune в bf16, LoRA на 70B через FSDP, инференс LLM до 70B в Q4. Для inference и небольшого fine‑tuning — RTX 4090 48 ГБ. Для CV и эмбеддингов — A10 24 ГБ.

torch.compile(model) — JIT‑компиляция через TorchInductor: модель трассируется в граф, fused‑операции группируются, генерируется оптимизированный CUDA/CPU код. Ускорение тренировки на 10–60%, особенно ощутимо на больших моделях. Использовать всегда в production. В research иногда выключают для удобства отладки eager‑mode.

FSDP2 (актуальная версия). Per‑parameter sharding вместо flatten+chunk, нативная совместимость с torch.compile, sharded state dicts, проще API. FSDP1 объявлен legacy. Для новых проектов — только FSDP2 (torch.distributed.fsdp.fully_shard). TorchTitan и TorchTune — на FSDP2.

Сервер готов за 3–5 минут после оплаты. NVIDIA‑драйверы и CUDA уже предустановлены в наших образах Ubuntu 24. Установка PyTorch 2.11 через pip — 2–4 минуты (основная задержка — скачивание CUDA‑зависимостей ~3 ГБ). Через NGC Docker — 5–10 минут на pull образа. SSH‑инструкция — здесь.

Одной A100 80GB — нет (нужно ~140 ГБ под bf16 + оптимизатор). Через QLoRA (4‑bit base + LoRA) — да, fine‑tuning влезает на одну A100 80GB. Для full fine‑tune нужен кластер из 4–8× A100 с FSDP2 + Tensor Parallel. Под inference Llama‑70B в Q4 — одной A100 80GB достаточно.

Посекундная оплата: платите за каждую секунду работы. Остановили сервер — счётчик GPU замер. Диск сохраняется отдельно (~2 ₽/час за 256 ГБ), включая venv с PyTorch и веса моделей. Возобновили работу — состояние сохранено. Неиспользованный остаток возвращается на баланс.

Да. Работаем с ООО/ИП по договору, оплата по счёту, НДС, ЭДО через Диадок/СБИС. Реквизиты для ЭДО — в блоке «Тестовый период для бизнеса». При большом объёме — индивидуальные условия и резерв GPU.

Из коробки через torch.nn.functional.scaled_dot_product_attention (SDPA) — PyTorch автоматически выбирает FlashAttention‑2 backend. Для FlashAttention‑3 на Hopper (H100) ставится отдельно: pip install flash-attn --no-build-isolation (нужен CUDA ≥ 12.3, рекомендуется 12.8). Для произвольных attention‑масок используйте FlexAttention — в PyTorch 2.11 на Hopper/Blackwell он автоматически использует FlashAttention‑4 backend (1.2–3.2× к Triton).

Да, PyTorch официально поддерживает AMD GPU через ROCm 6.x — ставится с соответствующего --index-url на download.pytorch.org/whl. Однако в Intelion Cloud парк — NVIDIA (A100, H100, RTX 4090, A10, RTX 3090). Под AMD под запрос.

Нет. PyTorch — open‑source, работает полностью локально на сервере в РФ (Самарская обл.). Никакой телеметрии или отправки данных в Meta/PyTorch Foundation. Веса моделей и датасеты остаются на вашем диске. Для изолированного контура поддержка настроит VPC.

PyTorch на вашем GPU
От 168 ₽/час, посекундная оплата.

Оплата в рублях, посекундно. Поддержка 24/7. Запуск за 5 минут.