Данные и токенизация 40 просмотров

Контекстное окно

Context Window / Context Length

Контекстное окно — максимальное количество токенов, которое LLM может обработать за один запрос (prompt + ответ). Определяет объём информации, доступный модели, от 4K до 1M+ токенов.

Что такое контекстное окно

Контекстное окно (context window) — максимальная длина последовательности токенов, которую модель может обработать. Включает и входной промт, и генерируемый ответ.

Размеры контекстных окон

Модель Контекст Примерно в символах
GPT-3.5 4K / 16K ~12K / 48K
GPT-4o 128K ~380K
Claude 3.5 200K ~600K
LLaMA 3 8K / 128K ~24K / 380K
Gemini 1.5 1M ~3M

Почему контекст ограничен

  1. Вычислительная сложность: Self-Attention имеет сложность O(n²) по длине
  2. VRAM: KV-cache растёт линейно с длиной контекста
  3. Качество: модели хуже работают с информацией в середине длинного контекста ("Lost in the Middle")

Техники расширения контекста

  • RoPE (Rotary Positional Encoding) — позиционные кодировки, поддерживающие экстраполяцию
  • YaRN — масштабирование RoPE для длинных контекстов
  • Ring Attention — распределение длинного контекста между GPU
  • Sliding Window Attention — локальный attention + глобальные токены

Практические рекомендации

  • RAG лучше, чем запихивать всё в контекст — дешевле и точнее
  • Chunking — разбивайте документы на части по 1-2K токенов
  • Важное — в начало и конец промта (не в середину)
  • Стоимость растёт линейно с длиной контекста

Связанные термины

Требует

Попробуйте на практике

Арендуйте GPU и запустите ML-модели в Intelion Cloud

Начать работу