Instruction tuning под свой домен
Превратить базовую модель (Llama 3.1 8B Base) в чат‑ассистента под вашу терминологию. SFT на 1–10K инструкций влезает в LoRA, обучение 4–12 часов на A100 80 ГБ.
Превратить базовую модель (Llama 3.1 8B Base) в чат‑ассистента под вашу терминологию. SFT на 1–10K инструкций влезает в LoRA, обучение 4–12 часов на A100 80 ГБ.
Выровнять модель под предпочтения через парные данные (chosen / rejected). DPO стабильнее RLHF, ORPO объединяет SFT и preference в один шаг. Поддерживается из коробки одним флагом в YAML.
Group Relative Policy Optimization (метод DeepSeek R1) — обучение reasoning без отдельной reward‑модели. Axolotl добавил GRPO в феврале 2025, async GRPO с vLLM rollouts уменьшает wall‑clock за счёт перекрытия генерации и обучения.
Другая задача? Напишите нам — подберём конфигурацию.
Весь pipeline — препроцессинг датасета, обучение, оценка, квантизация, инференс — описывается одним YAML‑файлом. Версионируется в git, воспроизводится на любой ноде без правок кода.
Full fine-tuning, LoRA, QLoRA, GPTQ, QAT, DPO, IPO, KTO, ORPO, GRPO, GDPO, Reward Modelling, PRM. Не нужно собирать 5 разных репозиториев — всё внутри Axolotl.
Multi-GPU и multi-node через DeepSpeed ZeRO‑1/2/3 и PyTorch FSDP. Обучение 70B+ моделей на 8×A100 80GB или 4×H100. Готовые конфиги DeepSpeed в репозитории.
FlashAttention уменьшает VRAM в 2–4×, Liger Kernels от LinkedIn — ещё 20–30% памяти и 20% скорости на RMSNorm, RoPE, SwiGLU. Поддержка Flex/Sage Attention, Cut Cross Entropy, sample packing бьёт батч плотно, без padding.
Поддержка Alpaca, ShareGPT, ChatML, OpenAI messages, raw completion, JSONL, parquet. Автоматический шаблонинг под чат‑формат конкретной модели. Кеш токенизации между запусками.
Llama 3/4, Qwen 2.5/3/3.5/3 Next, Mistral, Mixtral, Gemma 3n/4, Phi, GPT‑OSS, DeepSeek, Granite 4, Jamba, MoE‑архитектуры. Новая модель обычно появляется в течение недели после релиза.
Sample packing склеивает короткие примеры в полный context window — обучение в 2–5× быстрее без потери качества. Multipack дополнительно балансирует нагрузку между GPU.
Готовые Docker-образы с CUDA 12.x, PyTorch 2.5+, FlashAttention. Накатываются на чистую Ubuntu 22.04/24.04 за 5 минут. Multi-GPU запуск через `accelerate launch`.
Укажите параметры и запустите сервер за несколько минут
Мы уверены в железе — поэтому даём потестировать до покупки.
Подключитесь по ЭДО, напишите нам, и мы обсудим условия тестового запуска.
Как получить:
Данные для подключения по ЭДО:
Оператор: АО «Калуга Астрал»
ID: 2AEE383BDF8-E70C-4F74-9E7E-995E8AC21999
Мониторинг оборудования 24/7. Неисправный компонент заменим по гарантии без доплат.
Посекундная тарификация. Выключили сервер — счётчик остановился, данные на диске сохраняются. Скидки до 25% при оплате за 12 месяцев.
Сразу инженер, который разбирается в CUDA, PyTorch и настройке GPU-серверов. Ответ — до 15 минут.
Оплата в рублях, посекундно. Поддержка 24/7. Запуск за 5 минут.