Axolotl AI · Apache 2.0 · YAML configs

Аренда GPU для Axolotl
запуск за 5 минут,
от 168 ₽/час

YAML-конфиг для full fine-tuning, LoRA, QLoRA, DPO, ORPO, GRPO. Поддержка Llama, Qwen, Mistral, Gemma, Phi, DeepSpeed, FSDP, FlashAttention.

Серверы в РФ (Самарская обл.) Оплата картой РФ, СБП, по счёту

Популярные задачи наших клиентов

Instruction tuning под свой домен

Превратить базовую модель (Llama 3.1 8B Base) в чат‑ассистента под вашу терминологию. SFT на 1–10K инструкций влезает в LoRA, обучение 4–12 часов на A100 80 ГБ.

DPO / ORPO alignment

Выровнять модель под предпочтения через парные данные (chosen / rejected). DPO стабильнее RLHF, ORPO объединяет SFT и preference в один шаг. Поддерживается из коробки одним флагом в YAML.

GRPO для reasoning‑моделей

Group Relative Policy Optimization (метод DeepSeek R1) — обучение reasoning без отдельной reward‑модели. Axolotl добавил GRPO в феврале 2025, async GRPO с vLLM rollouts уменьшает wall‑clock за счёт перекрытия генерации и обучения.

Другая задача? Напишите нам — подберём конфигурацию.

4 шага до запуска

Как арендовать сервер с Tesla A100

От регистрации до запуска — меньше 10 минут. Без звонков менеджеру и подписания договоров.

1

Соберите сервер

Выберите GPU, объем диска, операционную систему и тариф в конфигураторе.

2

Создайте аккаунт

Простая регистрация через Яндекс-ID, Т-Банк или электронную почту.

3

Пополните баланс

Картой или по счёту для юрлиц. Средства зачисляются мгновенно.

Запустите сервер

И он будет готов через пару минут. Подключайтесь по SSH, RDP или прямо в браузере.

Платите только за время

Остановите сервер в любой момент и неиспользованные деньги вернутся на баланс.

Скидки за долгий срок аренды

При аренде от 3-х месяцев вы получаете скидку от 5% до 25%.

Смена конфига на лету

Начните с CPU‑сервера, затем подключите GPU для тяжёлых задач.

Что умеет Axolotl

Единый YAML‑конфиг

Весь pipeline — препроцессинг датасета, обучение, оценка, квантизация, инференс — описывается одним YAML‑файлом. Версионируется в git, воспроизводится на любой ноде без правок кода.

Все методы в одном инструменте

Full fine-tuning, LoRA, QLoRA, GPTQ, QAT, DPO, IPO, KTO, ORPO, GRPO, GDPO, Reward Modelling, PRM. Не нужно собирать 5 разных репозиториев — всё внутри Axolotl.

DeepSpeed и FSDP из коробки

Multi-GPU и multi-node через DeepSpeed ZeRO‑1/2/3 и PyTorch FSDP. Обучение 70B+ моделей на 8×A100 80GB или 4×H100. Готовые конфиги DeepSpeed в репозитории.

FlashAttention 2/3/4 + Liger Kernels

FlashAttention уменьшает VRAM в 2–4×, Liger Kernels от LinkedIn — ещё 20–30% памяти и 20% скорости на RMSNorm, RoPE, SwiGLU. Поддержка Flex/Sage Attention, Cut Cross Entropy, sample packing бьёт батч плотно, без padding.

Препроцессинг датасетов

Поддержка Alpaca, ShareGPT, ChatML, OpenAI messages, raw completion, JSONL, parquet. Автоматический шаблонинг под чат‑формат конкретной модели. Кеш токенизации между запусками.

Поддержка всех популярных моделей

Llama 3/4, Qwen 2.5/3/3.5/3 Next, Mistral, Mixtral, Gemma 3n/4, Phi, GPT‑OSS, DeepSeek, Granite 4, Jamba, MoE‑архитектуры. Новая модель обычно появляется в течение недели после релиза.

Sample packing и multipack

Sample packing склеивает короткие примеры в полный context window — обучение в 2–5× быстрее без потери качества. Multipack дополнительно балансирует нагрузку между GPU.

Docker и accelerate launch

Готовые Docker-образы с CUDA 12.x, PyTorch 2.5+, FlashAttention. Накатываются на чистую Ubuntu 22.04/24.04 за 5 минут. Multi-GPU запуск через `accelerate launch`.

4 способа запуска

Запустите одной командой

После создания сервера подключитесь по SSH и выберите подходящий инструмент.

Рекомендованный путь от axolotl-ai-cloud — через uv. Установка в venv, готовые примеры YAML‑конфигов в репозитории. Подходит для LoRA/QLoRA на моделях до 13B.

# Ubuntu 24.04, CUDA 12.8, Python 3.12
curl -LsSf https://astral.sh/uv/install.sh | sh
# Загружаем uv в PATH текущей сессии:
source $HOME/.local/bin/env
export UV_TORCH_BACKEND=cu128
uv venv --python 3.12 --clear /opt/axolotl
source /opt/axolotl/bin/activate
uv pip install torch==2.10.0 torchvision
uv pip install --no-build-isolation 'axolotl[deepspeed]'
# Скачать пример конфига:
axolotl fetch examples
# Запустить fine-tuning Llama-3-8B + LoRA:
axolotl train examples/llama-3/lora-8b.yml
Запустить Axolotl

~168 ₽/час · посекундная оплата

Выберите конфигурацию сервера

Укажите параметры и запустите сервер за несколько минут

Тестовый запуск

Тестовый период
для бизнеса

Мы уверены в железе — поэтому даём потестировать до покупки.
Подключитесь по ЭДО, напишите нам, и мы обсудим условия тестового запуска.

Как получить:

  • 1 Подключитесь к нам по ЭДО
  • 2 Напишите нам
  • 3 Получите сервер с Tesla A100

Данные для подключения по ЭДО:

Оператор: АО «Калуга Астрал»

ID: 2AEE383BDF8-E70C-4F74-9E7E-995E8AC21999

Написать нам

Почему арендуют у нас

Серверы работают , мы следим

Мониторинг оборудования 24/7. Неисправный компонент заменим по гарантии без доплат.

Платите только за вычисления

Посекундная тарификация. Выключили сервер — счётчик остановился, данные на диске сохраняются. Скидки до 25% при оплате за 12 месяцев.

Поддержка, а не тикет-система

Сразу инженер, который разбирается в CUDA, PyTorch и настройке GPU-серверов. Ответ — до 15 минут.

Вопросы и ответы

TRL — низкоуровневая библиотека Hugging Face, нужно писать свой Python‑скрипт. LLaMA-Factory — близкий аналог с GUI, но меньше методов RL. Axolotl — единый YAML, самый широкий набор методов (LoRA/QLoRA/FFT/DPO/ORPO/KTO/GRPO/RM/PRM), production-pipeline. Если YAML‑конфиг важнее GUI — выбирай Axolotl. Для чистого LoRA на одну GPU без RL — посмотри также Unsloth (быстрее, но методов меньше).

Зависит от модели и метода:
LoRA 7-8B (bf16)RTX 3090 24 ГБ или A10 24 ГБ
LoRA 13-14B (bf16)RTX 4090 48 ГБ
QLoRA 70B (4-bit)A100 80 ГБ
Full fine-tuning 70B — 8×A100 80 ГБ через DeepSpeed ZeRO-3
Full fine-tuning 8B (bf16) — A100 80 ГБ или 2×4090 48 ГБ.

Да. Axolotl лицензирован под Apache 2.0 — можно использовать в коммерческой разработке, модифицировать, встраивать в собственные пайплайны без раскрытия кода. Лицензия модели — отдельный вопрос (Llama 3 — Llama Community License, Qwen — Apache 2.0, Gemma — Gemma Terms of Use).

Все основные open-weight семейства: Llama 3/3.1/3.3/4, Qwen 2.5 / 3 / 3.5 / 3 Next (включая Coder и 2.5‑VL), Mistral / Mixtral / Ministral / Magistral, Gemma 3n/4, Phi, GPT‑OSS, DeepSeek V2/V3/R1, Granite 4, Jamba, HunYuan. Новые модели обычно появляются в течение недели после релиза.

Очень зависит от датасета и модели. Ориентир для 1×A100 80 ГБ:
• Llama-3 8B + LoRA, 5K примеров, 3 эпохи — 2–4 часа
• Llama-3 8B + LoRA, 50K примеров, 3 эпохи — 20–40 часов
• Qwen 3 14B + LoRA, 10K примеров, 3 эпохи — 8–16 часов
• Llama-3.3 70B + QLoRA, 10K примеров, 3 эпохи — 30–60 часов
Sample packing включён по умолчанию — без него сроки в 2–5× больше.

Да, через DeepSpeed + accelerate или FSDP. На наших серверах multi-node не нужен — 8×A100 80 ГБ или 8×H100 на одной ноде закрывают full fine-tuning 70B моделей. Для больших задач свяжитесь с поддержкой — соберём InfiniBand‑кластер.

Сервер готов за 3–5 минут после оплаты. Установка Axolotl в venv с FlashAttention и DeepSpeed — 10–15 минут (сборка flash-attn под вашу CUDA). Через Docker‑образ axolotlai/axolotl3–5 минут (только pull). Скачивание весов с Hugging Face — 1–10 минут на гигабитном канале. Итого 10–25 минут до старта первой эпохи.

Axolotl пишет адаптеры в output_dir из YAML (по умолчанию ./outputs/lora-out/). Команда axolotl inference config.yml --lora_model_dir=./outputs/lora-out запускает интерактивный чат для проверки. Слияние LoRA с базовой моделью — axolotl merge-lora config.yml. Готовый чекпоинт грузится в vLLM или Ollama для production inference.

Да. Диск сервера сохраняется отдельно от GPU‑часов (~2 ₽/час за 256 ГБ). Останавливаете сервер — счётчик GPU замирает, диск с весами и кешем датасетов остаётся. Стартуете снова — продолжаете с того же места. Чекпоинты можно и нужно дополнительно выгружать на Hugging Face Hub или в S3 — флаги hub_model_id и push_to_hub в YAML.

Да. Работаем с ООО/ИП по договору, оплата по счёту, НДС, ЭДО через Диадок/СБИС. В блоке «Тестовый период для бизнеса» — оператор и ID для ЭДО. Серверы стоят в РФ (Самарская обл.), ваши датасеты и веса не покидают периметр.

Axolotl на вашем GPU
От 168 ₽/час, посекундная оплата.

Оплата в рублях, посекундно. Поддержка 24/7. Запуск за 5 минут.