📊 Данные и токенизация
Токенизаторы, контекстное окно, датасеты, этапы обучения данных
BPE
Byte Pair Encoding
BPE (Byte Pair Encoding) — алгоритм токенизации, разбивающий текст на подслова путём итеративного слияния самых частых пар символов. Основа токенизаторов GPT, LLaMA и большинства современных LLM.
DPO
Direct Preference Optimization
DPO (Direct Preference Optimization) — метод выравнивания (alignment) LLM по человеческим предпочтениям без обучения отдельной reward-модели. Более простая альтернатива RLHF с сопоставимым качеством.
RLHF
Reinforcement Learning from Human Feedback
RLHF — метод выравнивания LLM по человеческим предпочтениям через обучение reward-модели и оптимизацию политики алгоритмом PPO. Использован в ChatGPT, Claude и других чат-ассистентах.
SFT
Supervised Fine-Tuning
SFT (Supervised Fine-Tuning) — этап дообучения LLM на размеченных парах «инструкция → ответ», превращающий базовую модель (base) в чат-ассистента, способного следовать инструкциям.
Контекстное окно
Context Window / Context Length
Контекстное окно — максимальное количество токенов, которое LLM может обработать за один запрос (prompt + ответ). Определяет объём информации, доступный модели, от 4K до 1M+ токенов.