Данные и токенизация 40 просмотров

Контекстное окно

Context Window / Context Length

Контекстное окно — максимальное количество токенов, которое LLM может обработать за один запрос (prompt + ответ). Определяет объём информации, доступный модели, от 4K до 1M+ токенов.

Содержание

Что такое контекстное окно
Размеры контекстных окон
Почему контекст ограничен
Техники расширения контекста
Практические рекомендации

Что такое контекстное окно

Контекстное окно (context window) — максимальная длина последовательности токенов, которую модель может обработать. Включает и входной промт, и генерируемый ответ.

Размеры контекстных окон

Модель	Контекст	Примерно в символах
GPT-3.5	4K / 16K	~12K / 48K
GPT-4o	128K	~380K
Claude 3.5	200K	~600K
LLaMA 3	8K / 128K	~24K / 380K
Gemini 1.5	1M	~3M

Почему контекст ограничен

Вычислительная сложность: Self-Attention имеет сложность O(n²) по длине
VRAM: KV-cache растёт линейно с длиной контекста
Качество: модели хуже работают с информацией в середине длинного контекста ("Lost in the Middle")

Техники расширения контекста

RoPE (Rotary Positional Encoding) — позиционные кодировки, поддерживающие экстраполяцию
YaRN — масштабирование RoPE для длинных контекстов
Ring Attention — распределение длинного контекста между GPU
Sliding Window Attention — локальный attention + глобальные токены

Практические рекомендации

RAG лучше, чем запихивать всё в контекст — дешевле и точнее
Chunking — разбивайте документы на части по 1-2K токенов
Важное — в начало и конец промта (не в середину)
Стоимость растёт линейно с длиной контекста

Связанные термины

Требует

KV-Cache

Попробуйте на практике

Арендуйте GPU и запустите ML-модели в Intelion Cloud

Начать работу