hiyouga · Apache 2.0 · 100+ моделей

Аренда GPU для LlamaFactory
запуск за 5 минут,
от 168 ₽/час

No-code WebUI LlamaBoard и llamafactory-cli для SFT, LoRA, QLoRA, DPO, KTO, ORPO, SimPO. Поддержка 100+ моделей: Llama, Qwen, Mistral, ChatGLM, Gemma, DeepSeek. Multi-GPU через DeepSpeed и FSDP.

Серверы в РФ (Самарская обл.) Оплата картой РФ, СБП, по счёту

Популярные задачи наших клиентов

Доменный чат-ассистент на своих данных

SFT на корпоративном FAQ, регламентах, тикетах поддержки. Llama 3.1 8B или Qwen 2.5 7B + LoRA — на A100 за 3–6 часов получаешь ассистента, который знает твою предметную область.

Code-модели под ваш стек

Fine-tune Qwen2.5-Coder или DeepSeek-Coder под ваш код, конвенции, фреймворки. LoRA на 30B весит 100–500 МБ — легко версионировать и разливать командам.

RLHF и DPO для alignment

Превратить SFT-модель в preference-tuned: собираешь пары (chosen/rejected), запускаешь DPO или ORPO. Без отдельного reward-model — оптимизация прямо по парам.

Другая задача? Напишите нам — подберём конфигурацию.

4 шага до запуска

Как арендовать сервер с Tesla A100

От регистрации до запуска — меньше 10 минут. Без звонков менеджеру и подписания договоров.

1

Соберите сервер

Выберите GPU, объем диска, операционную систему и тариф в конфигураторе.

2

Создайте аккаунт

Простая регистрация через Яндекс-ID, Т-Банк или электронную почту.

3

Пополните баланс

Картой или по счёту для юрлиц. Средства зачисляются мгновенно.

Запустите сервер

И он будет готов через пару минут. Подключайтесь по SSH, RDP или прямо в браузере.

Платите только за время

Остановите сервер в любой момент и неиспользованные деньги вернутся на баланс.

Скидки за долгий срок аренды

При аренде от 3-х месяцев вы получаете скидку от 5% до 25%.

Смена конфига на лету

Начните с CPU‑сервера, затем подключите GPU для тяжёлых задач.

Что умеет LlamaFactory

WebUI LlamaBoard — без единой строчки кода

Графический интерфейс на Gradio: выбираешь модель, датасет, метод (SFT/LoRA/DPO), жмёшь Start — и следишь за loss-кривыми в реальном времени. Экспорт в HuggingFace или GGUF.

100+ моделей из коробки

Llama 3/4, Qwen 2.5/3, Mistral, ChatGLM, Baichuan, Gemma, DeepSeek, Yi, InternLM, Phi и мультимодальные VLM (LLaVA, Qwen-VL). Шаблоны чатов и токенайзеры подхватываются автоматически.

LoRA, QLoRA, full SFT — все сценарии PEFT

16-bit full fine-tuning, freeze, LoRA, 2/3/4/5/6/8-bit QLoRA через AQLM/AWQ/GPTQ/bitsandbytes/HQQ/EETQ. DoRA, LoRA+, PiSSA, LoftQ, GaLore, BAdam, LongLoRA для экстремальных сценариев.

RLHF stack: DPO, PPO, KTO, ORPO, SimPO

Полный набор preference-методов в одной кодовой базе. Reward modeling, PPO с value head, прямая оптимизация DPO/KTO/ORPO/SimPO. Для GRPO-тренинга reasoning-моделей у команды есть отдельный проект EasyR1 — тоже разворачивается на нашем GPU.

Multimodal — VLM и reasoning из коробки

Тонкая настройка vision-language моделей (LLaVA, Qwen-VL, InternVL, MiniCPM-V) с DPO/ORPO/SimPO. Поддержка audio-LM (Qwen2-Audio) и reasoning-моделей с thinking-токенами.

Multi-GPU: DeepSpeed ZeRO + FSDP

Три движка распределённого обучения: DDP, DeepSpeed ZeRO 1/2/3 с offload, PyTorch FSDP. FSDP+QLoRA позволяет учить 70B на 2×24 ГБ. FlashAttention-2 поверх Ampere/Hopper, Unsloth-ускорение.

CLI llamafactory-cli — для скриптов и CI

Команды train, chat, webchat, api, eval, export. YAML-конфиги вместо CLI-флагов, готовые рецепты в examples/. Идеально под автоматизацию пайплайнов и воспроизводимый research.

Inference и сервинг встроены

После обучения — сразу llamafactory-cli api поднимает OpenAI-совместимый эндпоинт через vLLM или Transformers. Слияние LoRA-адаптеров и экспорт в GGUF одной командой.

4 способа запуска

Запустите одной командой

После создания сервера подключитесь по SSH и выберите подходящий инструмент.

Готовый образ от автора (v0.9.4, dec 2025): Ubuntu 22.04, CUDA 12.x, Python 3.11, свежий PyTorch и FlashAttention-2. Самый быстрый путь — без сборки окружения.

# Pre-built образ от hiyouga, всё уже собрано.
# При запуске на сервере без TTY уберите -it; для интерактивной работы оставьте.
docker run -d --gpus=all --ipc=host --name llamafactory \
  -p 7860:7860 -p 8000:8000 \
  -v $HOME/llamafactory_data:/app/data \
  -v $HOME/.cache/huggingface:/root/.cache/huggingface \
  hiyouga/llamafactory:latest \
  llamafactory-cli webui
# Логи: docker logs -f llamafactory
# Остановка: docker stop llamafactory && docker rm llamafactory
Запустить LlamaFactory

~168 ₽/час · посекундная оплата

Выберите конфигурацию сервера

Укажите параметры и запустите сервер за несколько минут

Тестовый запуск

Тестовый период
для бизнеса

Мы уверены в железе — поэтому даём потестировать до покупки.
Подключитесь по ЭДО, напишите нам, и мы обсудим условия тестового запуска.

Как получить:

  • 1 Подключитесь к нам по ЭДО
  • 2 Напишите нам
  • 3 Получите сервер с Tesla A100

Данные для подключения по ЭДО:

Оператор: АО «Калуга Астрал»

ID: 2AEE383BDF8-E70C-4F74-9E7E-995E8AC21999

Написать нам

Почему арендуют у нас

Серверы работают , мы следим

Мониторинг оборудования 24/7. Неисправный компонент заменим по гарантии без доплат.

Платите только за вычисления

Посекундная тарификация. Выключили сервер — счётчик остановился, данные на диске сохраняются. Скидки до 25% при оплате за 12 месяцев.

Поддержка, а не тикет-система

Сразу инженер, который разбирается в CUDA, PyTorch и настройке GPU-серверов. Ответ — до 15 минут.

Вопросы и ответы

LlamaFactory — это обёртка, которая объединяет transformers, PEFT, TRL, bitsandbytes, DeepSpeed, FSDP в единый пайплайн с CLI и WebUI. Вместо 200 строк boilerplate-кода ты пишешь YAML на 30 строк (или вообще не пишешь — через LlamaBoard). Поддержка 100+ моделей с шаблонами чатов и 100+ датасетов из коробки.

Зависит от размера модели и метода. Для LoRA на 7–8B — RTX 4090 48 ГБ или A10 24 ГБ. Для LoRA на 30–34B и full SFT на 7B — A100 80 ГБ. Для 70B+ — несколько A100 или H100 с DeepSpeed ZeRO-3 / FSDP.

Да. Сам LlamaFactory лицензирован под Apache 2.0 — встраивай, модифицируй, продавай. Лицензия модели, которую ты дотюниваешь, наследуется: Llama 3 — Meta Llama Community License, Qwen — Apache 2.0, Mistral — Apache 2.0, Gemma — Gemma Terms. Проверь лицензию исходной модели перед коммерческим использованием.

На A100 80 ГБ с LoRA rank 16, batch 4, датасетом 10k примеров, 3 эпохи — 3–6 часов. На RTX 4090 48 ГБ с QLoRA 4-bit — 5–9 часов. С Unsloth-ускорением (LlamaFactory его поддерживает) — в 1.5–2× быстрее.

WebUI (LlamaBoard) — для старта, ad-hoc экспериментов, demo заказчику, обучения команды. Не нужно знать YAML и флаги. CLI + YAML — для воспроизводимых экспериментов, CI, распределённого обучения на нескольких нодах, версионирования конфигов в git. На практике — WebUI для первого прототипа, потом экспорт YAML и переход на CLI.

Да. LlamaFactory работает с любыми моделями, у которых есть поддержка русского в токенайзере: Llama 3.1/3.3, Qwen 2.5/3, Mistral, Gemma 2/3. Лучшее качество русского из open-source — у Qwen 3 и Llama 3.3 70B. См. отдельный лендинг Qwen на GPU.

QLoRA — квантизованная LoRA. Базовая модель загружается в 4-bit (через bitsandbytes/AWQ/GPTQ), адаптеры тренируются в bf16. Экономит ~75% VRAM ценой ~5–10% качества. Используй, если модель не влезает в bf16: Llama 70B на A100 80 ГБ — только через QLoRA. FSDP+QLoRA в LlamaFactory позволяет тюнить 70B даже на 2×24 ГБ.

После обучения LoRA-адаптеры лежат в saves/<model>/lora/sft/. Чтобы получить полную модель — llamafactory-cli export (merge LoRA + base). Дальше — деплой через vLLM, SGLang или прямо через llamafactory-cli api (OpenAI-совместимый эндпоинт). Экспорт в GGUF для llama.cpp — одной командой.

Сервер готов за 3–5 минут после оплаты. Дальше — docker pull hiyouga/llamafactory:latest (5–10 минут на первый раз) или установка из исходников (~3 минуты pip install). Скачивание весов модели с Hugging Face: 1–10 минут на гигабитном канале. Итого 10–20 минут до первой запущенной тренировки. Детали SSH-подключения — в инструкции.

Нет. Сервер физически расположен в РФ (Самарская обл.), LlamaFactory работает локально — никаких внешних API-вызовов (кроме скачивания весов с Hugging Face, что можно отключить, положив модель вручную). Если нужен полный изолированный контур — поддержка настроит VPC и офлайн-режим с HF_HUB_OFFLINE=1.

Да. Работаем с ООО/ИП по договору, оплата по счёту, НДС, ЭДО через Диадок/СБИС. В блоке «Тестовый период для бизнеса» оператор и ID для ЭДО.

Платите за каждую секунду работы сервера. Остановили сервер после обучения — счётчик замер, диск с чекпоинтами сохраняется отдельно (~2 ₽/час за 256 ГБ). Это удобно для циклов «обучил → выключил → проанализировал → запустил снова».

LlamaFactory на вашем GPU
От 168 ₽/час, посекундная оплата.

Оплата в рублях, посекундно. Поддержка 24/7. Запуск за 5 минут.