Данные и токенизация — Энциклопедия ML

BPE

Byte Pair Encoding

BPE (Byte Pair Encoding) — алгоритм токенизации, разбивающий текст на подслова путём итеративного слияния самых частых пар символов. Основа токенизаторов GPT, LLaMA и большинства современных LLM.

DPO

Direct Preference Optimization

DPO (Direct Preference Optimization) — метод выравнивания (alignment) LLM по человеческим предпочтениям без обучения отдельной reward-модели. Более простая альтернатива RLHF с сопоставимым качеством.

Prompt Engineering

Prompt Engineering — искусство составления запросов для LLM без изменения весов модели. Включает техники zero-shot, few-shot, chain-of-thought, system prompts.

RLHF

Reinforcement Learning from Human Feedback

RLHF — метод выравнивания LLM по человеческим предпочтениям через обучение reward-модели и оптимизацию политики алгоритмом PPO. Использован в ChatGPT, Claude и других чат-ассистентах.

SFT

Supervised Fine-Tuning

SFT (Supervised Fine-Tuning) — этап дообучения LLM на размеченных парах «инструкция → ответ», превращающий базовую модель (base) в чат-ассистента, способного следовать инструкциям.

Tokenizer — компонент NLP-пайплайна, преобразующий текст в последовательность числовых токенов для обработки моделью. Определяет словарь, способ разбиения текста и эффективность использования контекстного окна.

Контекстное окно

Context Window / Context Length

Контекстное окно — максимальное количество токенов, которое LLM может обработать за один запрос (prompt + ответ). Определяет объём информации, доступный модели, от 4K до 1M+ токенов.

📊 Данные и токенизация

BPE

DPO

Prompt Engineering

RLHF

SFT

Tokenizer

Контекстное окно