Question 1

Чем LlamaFactory отличается от чистого Hugging Face transformers + PEFT?

Accepted Answer

LlamaFactory — это обёртка, которая объединяет transformers, PEFT, TRL, bitsandbytes, DeepSpeed, FSDP в единый пайплайн с CLI и WebUI. Вместо 200 строк boilerplate-кода ты пишешь YAML на 30 строк (или вообще не пишешь — через LlamaBoard). Поддержка 100+ моделей с шаблонами чатов и 100+ датасетов из коробки.

Question 2

Какой GPU выбрать для файнтюна?

Accepted Answer

Зависит от размера модели и метода. Для LoRA на 7–8B — RTX 4090 48 ГБ или A10 24 ГБ. Для LoRA на 30–34B и full SFT на 7B — A100 80 ГБ. Для 70B+ — несколько A100 или H100 с DeepSpeed ZeRO-3 / FSDP.

Question 3

Можно ли использовать LlamaFactory в коммерческом продукте?

Accepted Answer

Да. Сам LlamaFactory лицензирован под Apache 2.0 — встраивай, модифицируй, продавай. Лицензия модели, которую ты дотюниваешь, наследуется: Llama 3 — Meta Llama Community License, Qwen — Apache 2.0, Mistral — Apache 2.0, Gemma — Gemma Terms. Проверь лицензию исходной модели перед коммерческим использованием.

Question 4

Сколько времени занимает LoRA-обучение Llama 3.1 8B?

Accepted Answer

На A100 80 ГБ с LoRA rank 16, batch 4, датасетом 10k примеров, 3 эпохи — 3–6 часов. На RTX 4090 48 ГБ с QLoRA 4-bit — 5–9 часов. С Unsloth-ускорением (LlamaFactory его поддерживает) — в 1.5–2× быстрее.

Question 5

WebUI или CLI — что выбрать?

Accepted Answer

WebUI (LlamaBoard) — для старта, ad-hoc экспериментов, demo заказчику, обучения команды. Не нужно знать YAML и флаги. CLI + YAML — для воспроизводимых экспериментов, CI, распределённого обучения на нескольких нодах, версионирования конфигов в git. На практике — WebUI для первого прототипа, потом экспорт YAML и переход на CLI.

Question 6

Поддерживается ли русский язык?

Accepted Answer

Да. LlamaFactory работает с любыми моделями, у которых есть поддержка русского в токенайзере: Llama 3.1/3.3, Qwen 2.5/3, Mistral, Gemma 2/3. Лучшее качество русского из open-source — у Qwen 3 и Llama 3.3 70B. См. отдельный лендинг Qwen на GPU.

Question 7

Что такое QLoRA и когда её использовать?

Accepted Answer

QLoRA — квантизованная LoRA. Базовая модель загружается в 4-bit (через bitsandbytes/AWQ/GPTQ), адаптеры тренируются в bf16. Экономит ~75% VRAM ценой ~5–10% качества. Используй, если модель не влезает в bf16: Llama 70B на A100 80 ГБ — только через QLoRA. FSDP+QLoRA в LlamaFactory позволяет тюнить 70B даже на 2×24 ГБ.

Question 8

Как сохранить и развернуть обученную модель?

Accepted Answer

После обучения LoRA-адаптеры лежат в saves/<model>/lora/sft/. Чтобы получить полную модель — llamafactory-cli export (merge LoRA + base). Дальше — деплой через vLLM, SGLang или прямо через llamafactory-cli api (OpenAI-совместимый эндпоинт). Экспорт в GGUF для llama.cpp — одной командой.

Question 9

Сколько длится запуск сервера для LlamaFactory?

Accepted Answer

Сервер готов за 3–5 минут после оплаты. Дальше — docker pull hiyouga/llamafactory:latest (5–10 минут на первый раз) или установка из исходников (~3 минуты pip install). Скачивание весов модели с Hugging Face: 1–10 минут на гигабитном канале. Итого 10–20 минут до первой запущенной тренировки. Детали SSH-подключения — в инструкции.

Question 10

Данные моего датасета не утекут наружу?

Accepted Answer

Нет. Сервер физически расположен в РФ (Самарская обл.), LlamaFactory работает локально — никаких внешних API-вызовов (кроме скачивания весов с Hugging Face, что можно отключить, положив модель вручную). Если нужен полный изолированный контур — поддержка настроит VPC и офлайн-режим с HF_HUB_OFFLINE=1.

Question 11

Можно с юрлица, с закрывающими документами?

Accepted Answer

Да. Работаем с ООО/ИП по договору, оплата по счёту, НДС, ЭДО через Диадок/СБИС. В блоке «Тестовый период для бизнеса» оператор и ID для ЭДО.

Question 12

Посекундная оплата — как это работает?

Accepted Answer

Платите за каждую секунду работы сервера. Остановили сервер после обучения — счётчик замер, диск с чекпоинтами сохраняется отдельно (~2 ₽/час за 256 ГБ). Это удобно для циклов «обучил → выключил → проанализировал → запустил снова».

Аренда GPU для LlamaFactory
запуск за 5 минут,
от 168 ₽/час

Популярные задачи наших клиентов

Доменный чат-ассистент на своих данных

Code-модели под ваш стек

RLHF и DPO для alignment

Как арендовать сервер с Tesla A100

Соберите сервер

Создайте аккаунт

Пополните баланс

Запустите сервер

Платите только за время

Скидки за долгий срок аренды

Смена конфига на лету

Что умеет LlamaFactory

WebUI LlamaBoard — без единой строчки кода

100+ моделей из коробки

LoRA, QLoRA, full SFT — все сценарии PEFT

RLHF stack: DPO, PPO, KTO, ORPO, SimPO

Multimodal — VLM и reasoning из коробки

Multi-GPU: DeepSpeed ZeRO + FSDP

CLI llamafactory-cli — для скриптов и CI

Inference и сервинг встроены

Запустите одной командой

Выберите конфигурацию сервера

Тестовый период
для бизнеса

Почему арендуют у нас

Серверы работают , мы следим

Платите только за вычисления

Поддержка, а не тикет-система

Вопросы и ответы

LlamaFactory на вашем GPU
От 168 ₽/час, посекундная оплата.

Аренда GPU для LlamaFactory запуск за 5 минут, от 168 ₽/час