Данные и токенизация
40 просмотров
Контекстное окно
Context Window / Context Length
Контекстное окно — максимальное количество токенов, которое LLM может обработать за один запрос (prompt + ответ). Определяет объём информации, доступный модели, от 4K до 1M+ токенов.
Что такое контекстное окно
Контекстное окно (context window) — максимальная длина последовательности токенов, которую модель может обработать. Включает и входной промт, и генерируемый ответ.
Размеры контекстных окон
| Модель | Контекст | Примерно в символах |
|---|---|---|
| GPT-3.5 | 4K / 16K | ~12K / 48K |
| GPT-4o | 128K | ~380K |
| Claude 3.5 | 200K | ~600K |
| LLaMA 3 | 8K / 128K | ~24K / 380K |
| Gemini 1.5 | 1M | ~3M |
Почему контекст ограничен
- Вычислительная сложность: Self-Attention имеет сложность O(n²) по длине
- VRAM: KV-cache растёт линейно с длиной контекста
- Качество: модели хуже работают с информацией в середине длинного контекста ("Lost in the Middle")
Техники расширения контекста
- RoPE (Rotary Positional Encoding) — позиционные кодировки, поддерживающие экстраполяцию
- YaRN — масштабирование RoPE для длинных контекстов
- Ring Attention — распределение длинного контекста между GPU
- Sliding Window Attention — локальный attention + глобальные токены
Практические рекомендации
- RAG лучше, чем запихивать всё в контекст — дешевле и точнее
- Chunking — разбивайте документы на части по 1-2K токенов
- Важное — в начало и конец промта (не в середину)
- Стоимость растёт линейно с длиной контекста
Связанные термины
Требует