Данные и токенизация 21 просмотр

SFT

Supervised Fine-Tuning

SFT (Supervised Fine-Tuning) — этап дообучения LLM на размеченных парах «инструкция → ответ», превращающий базовую модель (base) в чат-ассистента, способного следовать инструкциям.

Содержание

Что такое SFT
Место в пайплайне обучения LLM
Формат данных
Объём данных
Ключевые датасеты

Что такое SFT

SFT (Supervised Fine-Tuning) — этап обучения LLM, на котором предобученная base-модель дообучается на парах (instruction, response) для формирования навыка следования инструкциям.

Место в пайплайне обучения LLM

1. Pretraining (триллионы токенов, терабайты текста)
   → Base model (предсказывает следующий токен)

2. SFT (десятки-сотни тысяч примеров)
   → Instruction model (следует инструкциям)

3. RLHF / DPO (тысячи пар предпочтений)
   → Aligned model (безопасный, полезный)

Формат данных

{
  "messages": [
    {"role": "system", "content": "Ты полезный ассистент."},
    {"role": "user", "content": "Объясни квантизацию простыми словами"},
    {"role": "assistant", "content": "Квантизация — это способ сжать нейросеть..."}
  ]
}

Объём данных

Задача	Примеров	Качество
General instruction following	50K-100K	Хорошее
Специализированная задача	1K-10K	Хорошее
LoRA на узкую задачу	100-1000	Достаточное

Ключевые датасеты

OpenAssistant — 160K диалогов
ShareGPT — реальные диалоги с ChatGPT
Alpaca — 52K инструкций (Stanford)
LIMA — 1K высококачественных примеров (Meta)

Meta показала в статье LIMA, что 1000 качественных примеров может быть достаточно для хорошего SFT — качество данных важнее количества.

Связанные термины

Требует

DPO

Предшественник

DPO

Использует

LoRA

Необходим для

RLHF

Попробуйте на практике

Арендуйте GPU и запустите ML-модели в Intelion Cloud

Начать работу