📊 Данные и токенизация
Токенизаторы, контекстное окно, датасеты, этапы обучения данных
BPE
Byte Pair Encoding
BPE (Byte Pair Encoding) — алгоритм токенизации, разбивающий текст на подслова путём итеративного слияния самых частых пар символов. Основа токенизаторов GPT, LLaMA и большинства современных LLM.
DPO
Direct Preference Optimization
DPO (Direct Preference Optimization) — метод выравнивания (alignment) LLM по человеческим предпочтениям без обучения отдельной reward-модели. Более простая альтернатива RLHF с сопоставимым качеством.
Prompt Engineering
Prompt Engineering
Prompt Engineering — искусство составления запросов для LLM без изменения весов модели. Включает техники zero-shot, few-shot, chain-of-thought, system prompts.
RLHF
Reinforcement Learning from Human Feedback
RLHF — метод выравнивания LLM по человеческим предпочтениям через обучение reward-модели и оптимизацию политики алгоритмом PPO. Использован в ChatGPT, Claude и других чат-ассистентах.
SFT
Supervised Fine-Tuning
SFT (Supervised Fine-Tuning) — этап дообучения LLM на размеченных парах «инструкция → ответ», превращающий базовую модель (base) в чат-ассистента, способного следовать инструкциям.
Tokenizer
Tokenizer
Tokenizer — компонент NLP-пайплайна, преобразующий текст в последовательность числовых токенов для обработки моделью. Определяет словарь, способ разбиения текста и эффективность использования контекстного окна.
Контекстное окно
Context Window / Context Length
Контекстное окно — максимальное количество токенов, которое LLM может обработать за один запрос (prompt + ответ). Определяет объём информации, доступный модели, от 4K до 1M+ токенов.