Архитектуры моделей
53 просмотра
Диффузионные модели
Diffusion Models
Диффузионные модели — класс генеративных моделей, создающих изображения, видео и аудио путём постепенного удаления шума из случайных данных. Основа Stable Diffusion, DALL-E 3, Midjourney.
Что такое диффузионные модели
Диффузионные модели (Diffusion Models) — генеративные модели, работающие по принципу постепенного шумоподавления. На этапе обучения модель учится удалять шум из изображения, а при генерации — начинает с чистого шума и пошагово превращает его в осмысленное изображение.
Как работает
Прямой процесс (обучение):
Чистое изображение → +шум → +шум → ... → Чистый шум
t=1 t=2 t=T
Обратный процесс (генерация):
Чистый шум → -шум → -шум → ... → Чистое изображение
t=T t=T-1 t=0
Модель (обычно U-Net или DiT) учится предсказывать шум на каждом шаге. При генерации она итеративно удаляет предсказанный шум.
Основные архитектуры
| Модель | Архитектура | Шаги | Особенности |
|---|---|---|---|
| Stable Diffusion 1.5 | U-Net + VAE + CLIP | 20-50 | Latent diffusion |
| SDXL | U-Net (увеличенный) | 20-40 | 1024×1024, два текстовых энкодера |
| Stable Diffusion 3 | DiT (Transformer) | 20-30 | Flow matching, MMDiT |
| DALL-E 3 | DiT + T5 | ~60 | Улучшенное следование промптам |
| Flux | DiT | 4-50 | Быстрая генерация |
GPU-требования
| Модель | VRAM (FP16) | Генерация 1 изображения |
|---|---|---|
| SD 1.5 | 4 GB | 3-5 сек (RTX 3090) |
| SDXL | 8 GB | 8-15 сек (RTX 3090) |
| SD 3 Medium | 12 GB | 10-20 сек |
| Flux Dev | 24 GB | 15-30 сек |
Оптимизация на GPU
- xFormers / Flash Attention: ускоряют attention в U-Net
- FP16/BF16: вдвое меньше VRAM без потери качества
- Torch.compile: JIT-компиляция для ускорения
- TensorRT: конвертация в оптимизированный движок NVIDIA
# Генерация с Stable Diffusion на GPU
from diffusers import StableDiffusionPipeline
import torch
pipe = StableDiffusionPipeline.from_pretrained(
"stabilityai/stable-diffusion-xl-base-1.0",
torch_dtype=torch.float16,
).to("cuda")
image = pipe("GPU-кластер в дата-центре", num_inference_steps=30).images[0]
Связанные термины
Требует