Данные и токенизация 21 просмотр

SFT

Supervised Fine-Tuning

SFT (Supervised Fine-Tuning) — этап дообучения LLM на размеченных парах «инструкция → ответ», превращающий базовую модель (base) в чат-ассистента, способного следовать инструкциям.

Что такое SFT

SFT (Supervised Fine-Tuning) — этап обучения LLM, на котором предобученная base-модель дообучается на парах (instruction, response) для формирования навыка следования инструкциям.

Место в пайплайне обучения LLM

1. Pretraining (триллионы токенов, терабайты текста)
    Base model (предсказывает следующий токен)

2. SFT (десятки-сотни тысяч примеров)
    Instruction model (следует инструкциям)

3. RLHF / DPO (тысячи пар предпочтений)
    Aligned model (безопасный, полезный)

Формат данных

{
  "messages": [
    {"role": "system", "content": "Ты полезный ассистент."},
    {"role": "user", "content": "Объясни квантизацию простыми словами"},
    {"role": "assistant", "content": "Квантизация — это способ сжать нейросеть..."}
  ]
}

Объём данных

Задача Примеров Качество
General instruction following 50K-100K Хорошее
Специализированная задача 1K-10K Хорошее
LoRA на узкую задачу 100-1000 Достаточное

Ключевые датасеты

  • OpenAssistant — 160K диалогов
  • ShareGPT — реальные диалоги с ChatGPT
  • Alpaca — 52K инструкций (Stanford)
  • LIMA — 1K высококачественных примеров (Meta)

Meta показала в статье LIMA, что 1000 качественных примеров может быть достаточно для хорошего SFT — качество данных важнее количества.

Связанные термины

Требует
Предшественник
Использует
Необходим для

Попробуйте на практике

Арендуйте GPU и запустите ML-модели в Intelion Cloud

Начать работу