Доменный чат-ассистент на своих данных
SFT на корпоративном FAQ, регламентах, тикетах поддержки. Llama 3.1 8B или Qwen 2.5 7B + LoRA — на A100 за 3–6 часов получаешь ассистента, который знает твою предметную область.
SFT на корпоративном FAQ, регламентах, тикетах поддержки. Llama 3.1 8B или Qwen 2.5 7B + LoRA — на A100 за 3–6 часов получаешь ассистента, который знает твою предметную область.
Fine-tune Qwen2.5-Coder или DeepSeek-Coder под ваш код, конвенции, фреймворки. LoRA на 30B весит 100–500 МБ — легко версионировать и разливать командам.
Превратить SFT-модель в preference-tuned: собираешь пары (chosen/rejected), запускаешь DPO или ORPO. Без отдельного reward-model — оптимизация прямо по парам.
Другая задача? Напишите нам — подберём конфигурацию.
Графический интерфейс на Gradio: выбираешь модель, датасет, метод (SFT/LoRA/DPO), жмёшь Start — и следишь за loss-кривыми в реальном времени. Экспорт в HuggingFace или GGUF.
Llama 3/4, Qwen 2.5/3, Mistral, ChatGLM, Baichuan, Gemma, DeepSeek, Yi, InternLM, Phi и мультимодальные VLM (LLaVA, Qwen-VL). Шаблоны чатов и токенайзеры подхватываются автоматически.
16-bit full fine-tuning, freeze, LoRA, 2/3/4/5/6/8-bit QLoRA через AQLM/AWQ/GPTQ/bitsandbytes/HQQ/EETQ. DoRA, LoRA+, PiSSA, LoftQ, GaLore, BAdam, LongLoRA для экстремальных сценариев.
Полный набор preference-методов в одной кодовой базе. Reward modeling, PPO с value head, прямая оптимизация DPO/KTO/ORPO/SimPO. Для GRPO-тренинга reasoning-моделей у команды есть отдельный проект EasyR1 — тоже разворачивается на нашем GPU.
Тонкая настройка vision-language моделей (LLaVA, Qwen-VL, InternVL, MiniCPM-V) с DPO/ORPO/SimPO. Поддержка audio-LM (Qwen2-Audio) и reasoning-моделей с thinking-токенами.
Три движка распределённого обучения: DDP, DeepSpeed ZeRO 1/2/3 с offload, PyTorch FSDP. FSDP+QLoRA позволяет учить 70B на 2×24 ГБ. FlashAttention-2 поверх Ampere/Hopper, Unsloth-ускорение.
Команды train, chat, webchat, api, eval, export. YAML-конфиги вместо CLI-флагов, готовые рецепты в examples/. Идеально под автоматизацию пайплайнов и воспроизводимый research.
После обучения — сразу llamafactory-cli api поднимает OpenAI-совместимый эндпоинт через vLLM или Transformers. Слияние LoRA-адаптеров и экспорт в GGUF одной командой.
Укажите параметры и запустите сервер за несколько минут
Мы уверены в железе — поэтому даём потестировать до покупки.
Подключитесь по ЭДО, напишите нам, и мы обсудим условия тестового запуска.
Как получить:
Данные для подключения по ЭДО:
Оператор: АО «Калуга Астрал»
ID: 2AEE383BDF8-E70C-4F74-9E7E-995E8AC21999
Мониторинг оборудования 24/7. Неисправный компонент заменим по гарантии без доплат.
Посекундная тарификация. Выключили сервер — счётчик остановился, данные на диске сохраняются. Скидки до 25% при оплате за 12 месяцев.
Сразу инженер, который разбирается в CUDA, PyTorch и настройке GPU-серверов. Ответ — до 15 минут.
Оплата в рублях, посекундно. Поддержка 24/7. Запуск за 5 минут.