Unsloth · Apache 2.0 · 2× быстрее

Аренда GPU для Unsloth
запуск за 5 минут,
от 168 ₽/час

Fine-tuning Llama, Qwen, Mistral, Gemma в 2× быстрее и с 50-80% меньшим расходом VRAM. LoRA, QLoRA, DPO, GRPO из коробки. Полная совместимость с HuggingFace и Transformers.

Серверы в РФ (Самарская обл.) Оплата картой РФ, СБП, по счёту

Популярные задачи наших клиентов

LoRA fine-tuning Qwen / Llama

Адаптация base-моделей под доменные данные: внутренние документы, русскоязычный support, юридический язык. LoRA-адаптеры весят 50-200 МБ, легко версионируются и деплоятся.

QLoRA на потребительских GPU

4-bit базовая модель + LoRA-адаптеры в bf16. Llama 3.1 70B QLoRA влезает на одну A100 80 ГБ, 8B — на 12 ГБ VRAM. Качество сопоставимо с full fine-tune при 10× меньше ресурсов.

DPO / GRPO для reasoning

Reinforcement learning from human preferences. GRPO — рецепт DeepSeek-R1 для развития reasoning-способностей. DPO — упрощённая альтернатива RLHF без отдельной reward-модели.

Другая задача? Напишите нам — подберём конфигурацию.

4 шага до запуска

Как арендовать сервер с Tesla A100

От регистрации до запуска — меньше 10 минут. Без звонков менеджеру и подписания договоров.

1

Соберите сервер

Выберите GPU, объем диска, операционную систему и тариф в конфигураторе.

2

Создайте аккаунт

Простая регистрация через Яндекс-ID, Т-Банк или электронную почту.

3

Пополните баланс

Картой или по счёту для юрлиц. Средства зачисляются мгновенно.

Запустите сервер

И он будет готов через пару минут. Подключайтесь по SSH, RDP или прямо в браузере.

Платите только за время

Остановите сервер в любой момент и неиспользованные деньги вернутся на баланс.

Скидки за долгий срок аренды

При аренде от 3-х месяцев вы получаете скидку от 5% до 25%.

Смена конфига на лету

Начните с CPU‑сервера, затем подключите GPU для тяжёлых задач.

Что умеет Unsloth

2× быстрее обучения

Кастомные Triton-ядра ускоряют forward/backward в 2× по сравнению со стандартным HuggingFace + PEFT. Без потери точности — численно идентичные результаты с baseline.

50-80% меньше VRAM

Smart gradient checkpointing и memory-efficient attention снижают пиковое потребление VRAM на 50-80%. Llama 3.1 8B QLoRA влезает на 12 ГБ, а 70B — на одну A100 80 ГБ.

FlashAttention 2

Встроенная поддержка FlashAttention 2 для ускорения attention на длинных контекстах. RoPE-scaling до 4× нативной длины — тренировка с context window 32K на потребительском GPU.

Dynamic 4-bit квантизация

Unsloth Dynamic Quants 2.0 — слой-специфичная 4-bit квантизация с минимальной потерей качества. Точность близка к bf16 при 4× меньшем размере модели.

DPO, GRPO, ORPO, KTO

Все современные RLHF/preference-методы из коробки: DPO, GRPO (reasoning по DeepSeek-R1 рецепту), ORPO, KTO, SimPO. Полная интеграция с TRL от HuggingFace.

Vision LLM поддержка

Fine-tuning vision-моделей: Llama 3.2 Vision, Qwen2-VL, Pixtral, LLaVA. Тот же 2× speedup и memory-saving, что и для текстовых LLM.

Auto GGUF / Ollama экспорт

После обучения — экспорт в GGUF (Q4_K_M, Q5_K_M, Q8_0) одной командой. Сразу готово для llama.cpp и Ollama. Также vLLM-merged веса и push на HuggingFace Hub.

RoPE Scaling до 4×

Long context fine-tuning без OOM — RoPE-scaling позволяет тренировать Llama 3 на 32K-128K токенов на одной A100 80 ГБ. YaRN, Linear, Dynamic NTK варианты поддерживаются.

4 способа запуска

Запустите одной командой

После создания сервера подключитесь по SSH и выберите подходящий инструмент.

Самый быстрый старт. Готовые Colab/Jupyter notebook'и под Llama, Qwen, Mistral, Gemma. Требуется CUDA 12.1+, Python 3.10-3.12, PyTorch 2.4+.

# Создаём venv (Ubuntu 24 — managed Python):
python3 -m venv /opt/unsloth && source /opt/unsloth/bin/activate
pip install --upgrade pip
# Сначала ставим torch (flash-attn build требует pre-installed torch):
pip install torch --index-url https://download.pytorch.org/whl/cu128
# Затем Unsloth — auto-детект CUDA, для Ampere/Hopper (RTX 30xx+/A100/H100):
pip install unsloth
# Альтернатива — bleeding-edge с git:
# pip install --upgrade --no-cache-dir 'unsloth @ git+https://github.com/unslothai/unsloth.git'
# Проверка:
python3 -c 'from unsloth import FastLanguageModel; print("OK")'
Запустить Unsloth

~168 ₽/час · посекундная оплата

Выберите конфигурацию сервера

Укажите параметры и запустите сервер за несколько минут

Тестовый запуск

Тестовый период
для бизнеса

Мы уверены в железе — поэтому даём потестировать до покупки.
Подключитесь по ЭДО, напишите нам, и мы обсудим условия тестового запуска.

Как получить:

  • 1 Подключитесь к нам по ЭДО
  • 2 Напишите нам
  • 3 Получите сервер с Tesla A100

Данные для подключения по ЭДО:

Оператор: АО «Калуга Астрал»

ID: 2AEE383BDF8-E70C-4F74-9E7E-995E8AC21999

Написать нам

Почему арендуют у нас

Серверы работают , мы следим

Мониторинг оборудования 24/7. Неисправный компонент заменим по гарантии без доплат.

Платите только за вычисления

Посекундная тарификация. Выключили сервер — счётчик остановился, данные на диске сохраняются. Скидки до 25% при оплате за 12 месяцев.

Поддержка, а не тикет-система

Сразу инженер, который разбирается в CUDA, PyTorch и настройке GPU-серверов. Ответ — до 15 минут.

Вопросы и ответы

Зависит от модели. Llama 3.1 8B QLoRA — от 12 ГБ VRAM (RTX 3090, A10). Llama 3.1 70B QLoRA — A100 80 ГБ. Для длинного контекста (32K+) или multi-GPU тренировки 70B+ — 2-4× A100 80 ГБ. Vision-модели — A100 80 ГБ для 11B+.

Unsloth — drop-in замена с 2× ускорением и 50-80% экономией VRAM. Использует кастомные Triton-ядра для forward/backward, smart gradient checkpointing, memory-efficient attention. API совместим — большая часть кода переносится без изменений. Численно идентичные результаты — без потери точности.

Да. Unsloth лицензирован под Apache 2.0 — можно встраивать в продукт, продавать, модифицировать. Лицензия модели (Llama, Qwen, Mistral) проверяется отдельно — большинство open-weight моделей разрешают коммерческое использование.

Все основные open-weight LLM: Llama 3 / 3.1 / 3.2 / 3.3, Qwen2 / Qwen2.5 / Qwen3, Mistral / Mixtral, Gemma 2 / 3, Phi-3 / 3.5 / 4, DeepSeek-V3 / R1, Yi, gpt-oss. Vision: Llama 3.2 Vision, Qwen2-VL, Pixtral, LLaVA. Полный список (500+ моделей) — в model catalog.

Зависит от датасета. На 10K-50K примеров (типовой LoRA setup): 30 минут — 2 часа на A100 80 ГБ. На потребительской GPU 24 ГБ — 1-4 часа. QLoRA на 70B — 6-24 часа на A100 80 ГБ. DPO/GRPO работают в 1.5-2× медленнее SFT из-за двух forward-проходов.

Да. Все современные preference-методы из коробки через интеграцию с TRL: DPO, ORPO, KTO, SimPO, GRPO. GRPO — рецепт DeepSeek-R1 для развития reasoning. Достаточно поменять SFTTrainer на DPOTrainer / GRPOTrainer — остальной код работает без изменений.

Да. Одна команда — model.save_pretrained_gguf('output_dir', tokenizer, quantization_method='q4_k_m'). Также поддерживаются Q5_K_M, Q8_0, Q3_K_M, Q2_K. Получившийся GGUF сразу загружается в Ollama (ollama create), llama.cpp, LM Studio, Text Generation WebUI.

Сервер готов за 3-5 минут после оплаты. Образ Ubuntu 24.04 + CUDA 12.x уже готов. Установка Unsloth через pip — 5-10 минут (или 30 секунд для готового Docker-образа). Скачивание base-модели с HuggingFace — 2-15 минут в зависимости от размера. Итого 10-25 минут до первой эпохи.

Да, Unsloth model-agnostic — работает с любым языком. Для русского лучшие base-модели — Qwen3 (14B+), Llama 3.1 / 3.3, Mistral. Для адаптации словаря под русский — embedding/lm_head LoRA или continued pretraining на русскоязычном корпусе.

Платите за каждую секунду работы сервера. Остановили сервер после тренировки — счётчик замер, диск с весами и адаптерами сохраняется отдельно (~2 ₽/час за 256 ГБ). Возобновление — за минуту. Неиспользованный остаток возвращается на баланс.

Да. Работаем с ООО/ИП по договору, оплата по счёту, НДС, ЭДО через Диадок/СБИС. Для R&D и обучающих программ — отдельные условия. В блоке «Тестовый период для бизнеса» — оператор и ID для ЭДО.

Нет. Тренировка проходит локально на вашем GPU-сервере в дата-центре в РФ (Самарская обл.). Unsloth — open-source библиотека, не отправляет данные наружу. Полученные веса остаются на диске сервера до выгрузки. Для изолированного контура — поддержка настроит VPC-подключение.

Unsloth на вашем GPU
От 168 ₽/час, посекундная оплата.

Оплата в рублях, посекундно. Поддержка 24/7. Запуск за 5 минут, готовый Docker-образ с CUDA 12.x.