Архитектуры моделей 220 просмотров

Диффузионные модели

Diffusion Models

Диффузионные модели — класс генеративных моделей, создающих изображения, видео и аудио путём постепенного удаления шума из случайных данных. Основа Stable Diffusion, DALL-E 3, Midjourney.

Содержание

Что такое диффузионные модели
Как работает
Основные архитектуры
GPU-требования
Оптимизация на GPU

Что такое диффузионные модели

Диффузионные модели (Diffusion Models) — генеративные модели, работающие по принципу постепенного шумоподавления. На этапе обучения модель учится удалять шум из изображения, а при генерации — начинает с чистого шума и пошагово превращает его в осмысленное изображение.

Как работает

Прямой процесс (обучение):

Чистое изображение → +шум → +шум → ... → Чистый шум
                    t=1     t=2          t=T

Обратный процесс (генерация):

Чистый шум → -шум → -шум → ... → Чистое изображение
             t=T    t=T-1         t=0

Модель (обычно U-Net или DiT) учится предсказывать шум на каждом шаге. При генерации она итеративно удаляет предсказанный шум.

Основные архитектуры

Модель	Архитектура	Шаги	Особенности
Stable Diffusion 1.5	U-Net + VAE + CLIP	20-50	Latent diffusion
SDXL	U-Net (увеличенный)	20-40	1024×1024, два текстовых энкодера
Stable Diffusion 3	DiT (Transformer)	20-30	Flow matching, MMDiT
DALL-E 3	DiT + T5	~60	Улучшенное следование промптам
Flux	DiT	4-50	Быстрая генерация

GPU-требования

Модель	VRAM (FP16)	Генерация 1 изображения
SD 1.5	4 GB	3-5 сек (RTX 3090)
SDXL	8 GB	8-15 сек (RTX 3090)
SD 3 Medium	12 GB	10-20 сек
Flux Dev	24 GB	15-30 сек

Оптимизация на GPU

xFormers / Flash Attention: ускоряют attention в U-Net
FP16/BF16: вдвое меньше VRAM без потери качества
Torch.compile: JIT-компиляция для ускорения
TensorRT: конвертация в оптимизированный движок NVIDIA

# Генерация с Stable Diffusion на GPU
from diffusers import StableDiffusionPipeline
import torch

pipe = StableDiffusionPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0",
    torch_dtype=torch.float16,
).to("cuda")

image = pipe("GPU-кластер в дата-центре", num_inference_steps=30).images[0]

Связанные термины

Требует

GPU

Попробуйте на практике

Арендуйте GPU и запустите ML-модели в Intelion Cloud

Начать работу