Архитектуры моделей 15 просмотров

Transformer

Transformer — архитектура нейронной сети, основанная на механизме внимания (attention), ставшая основой всех современных LLM (GPT, LLaMA, Gemini) и моделей компьютерного зрения (ViT).

Содержание

Что такое Transformer
Архитектура
Варианты архитектуры
Ключевые компоненты
Масштабирование

Что такое Transformer

Transformer — архитектура нейронной сети, представленная в статье «Attention Is All You Need» (Vaswani et al., 2017). Отказалась от рекуррентности (RNN) и свёрток (CNN) в пользу механизма внимания (self-attention), что позволило эффективно обрабатывать длинные последовательности параллельно.

Архитектура

Классический Transformer состоит из:

Encoder — обрабатывает входную последовательность целиком
Decoder — генерирует выходную последовательность поэлементно

Каждый блок содержит:
- Multi-Head Attention (MHA)
- Feed-Forward Network (FFN)
- Layer Normalization
- Residual connections

Варианты архитектуры

Тип	Примеры	Задачи
Encoder-only	BERT, RoBERTa	Классификация, NER
Decoder-only	GPT, LLaMA, Mistral	Генерация текста
Encoder-Decoder	T5, BART	Перевод, суммаризация

Современные LLM используют decoder-only архитектуру — она проще, масштабируется лучше и при достаточном размере решает все задачи.

Ключевые компоненты

Input → Embedding → [N × Transformer Block] → Output

Transformer Block:
  x → LayerNorm → Multi-Head Attention → + (residual)
    → LayerNorm → Feed-Forward (MLP)    → + (residual)

Масштабирование

Размер Transformer определяется:
- d_model — размерность эмбеддингов (768, 4096, 8192)
- n_heads — количество голов внимания (12, 32, 64)
- n_layers — количество блоков (12, 32, 80, 126)
- d_ff — размерность FFN (обычно 4× d_model)

Законы масштабирования (Chinchilla) показывают, что производительность предсказуемо растёт с увеличением параметров и данных.

Связанные термины

Включает

Self-Attention RMSNorm RoPE

Использует

BPE

Попробуйте на практике

Арендуйте GPU и запустите ML-модели в Intelion Cloud

Начать работу