Данные и токенизация
21 просмотр
SFT
Supervised Fine-Tuning
SFT (Supervised Fine-Tuning) — этап дообучения LLM на размеченных парах «инструкция → ответ», превращающий базовую модель (base) в чат-ассистента, способного следовать инструкциям.
Что такое SFT
SFT (Supervised Fine-Tuning) — этап обучения LLM, на котором предобученная base-модель дообучается на парах (instruction, response) для формирования навыка следования инструкциям.
Место в пайплайне обучения LLM
1. Pretraining (триллионы токенов, терабайты текста)
→ Base model (предсказывает следующий токен)
2. SFT (десятки-сотни тысяч примеров)
→ Instruction model (следует инструкциям)
3. RLHF / DPO (тысячи пар предпочтений)
→ Aligned model (безопасный, полезный)
Формат данных
{
"messages": [
{"role": "system", "content": "Ты полезный ассистент."},
{"role": "user", "content": "Объясни квантизацию простыми словами"},
{"role": "assistant", "content": "Квантизация — это способ сжать нейросеть..."}
]
}
Объём данных
| Задача | Примеров | Качество |
|---|---|---|
| General instruction following | 50K-100K | Хорошее |
| Специализированная задача | 1K-10K | Хорошее |
| LoRA на узкую задачу | 100-1000 | Достаточное |
Ключевые датасеты
- OpenAssistant — 160K диалогов
- ShareGPT — реальные диалоги с ChatGPT
- Alpaca — 52K инструкций (Stanford)
- LIMA — 1K высококачественных примеров (Meta)
Meta показала в статье LIMA, что 1000 качественных примеров может быть достаточно для хорошего SFT — качество данных важнее количества.