📊 Данные и токенизация

Токенизаторы, контекстное окно, датасеты, этапы обучения данных

BPE

Byte Pair Encoding

BPE (Byte Pair Encoding) — алгоритм токенизации, разбивающий текст на подслова путём итеративного слияния самых частых пар символов. Основа токенизаторов GPT, LLaMA и большинства современных LLM.

DPO

Direct Preference Optimization

DPO (Direct Preference Optimization) — метод выравнивания (alignment) LLM по человеческим предпочтениям без обучения отдельной reward-модели. Более простая альтернатива RLHF с сопоставимым качеством.

RLHF

Reinforcement Learning from Human Feedback

RLHF — метод выравнивания LLM по человеческим предпочтениям через обучение reward-модели и оптимизацию политики алгоритмом PPO. Использован в ChatGPT, Claude и других чат-ассистентах.

SFT

Supervised Fine-Tuning

SFT (Supervised Fine-Tuning) — этап дообучения LLM на размеченных парах «инструкция → ответ», превращающий базовую модель (base) в чат-ассистента, способного следовать инструкциям.

Контекстное окно

Context Window / Context Length

Контекстное окно — максимальное количество токенов, которое LLM может обработать за один запрос (prompt + ответ). Определяет объём информации, доступный модели, от 4K до 1M+ токенов.