Архитектуры моделей 53 просмотра

Диффузионные модели

Diffusion Models

Диффузионные модели — класс генеративных моделей, создающих изображения, видео и аудио путём постепенного удаления шума из случайных данных. Основа Stable Diffusion, DALL-E 3, Midjourney.

Что такое диффузионные модели

Диффузионные модели (Diffusion Models) — генеративные модели, работающие по принципу постепенного шумоподавления. На этапе обучения модель учится удалять шум из изображения, а при генерации — начинает с чистого шума и пошагово превращает его в осмысленное изображение.

Как работает

Прямой процесс (обучение):

Чистое изображение → +шум → +шум → ... → Чистый шум
                    t=1     t=2          t=T

Обратный процесс (генерация):

Чистый шум → -шум → -шум → ... → Чистое изображение
             t=T    t=T-1         t=0

Модель (обычно U-Net или DiT) учится предсказывать шум на каждом шаге. При генерации она итеративно удаляет предсказанный шум.

Основные архитектуры

Модель Архитектура Шаги Особенности
Stable Diffusion 1.5 U-Net + VAE + CLIP 20-50 Latent diffusion
SDXL U-Net (увеличенный) 20-40 1024×1024, два текстовых энкодера
Stable Diffusion 3 DiT (Transformer) 20-30 Flow matching, MMDiT
DALL-E 3 DiT + T5 ~60 Улучшенное следование промптам
Flux DiT 4-50 Быстрая генерация

GPU-требования

Модель VRAM (FP16) Генерация 1 изображения
SD 1.5 4 GB 3-5 сек (RTX 3090)
SDXL 8 GB 8-15 сек (RTX 3090)
SD 3 Medium 12 GB 10-20 сек
Flux Dev 24 GB 15-30 сек

Оптимизация на GPU

  • xFormers / Flash Attention: ускоряют attention в U-Net
  • FP16/BF16: вдвое меньше VRAM без потери качества
  • Torch.compile: JIT-компиляция для ускорения
  • TensorRT: конвертация в оптимизированный движок NVIDIA
# Генерация с Stable Diffusion на GPU
from diffusers import StableDiffusionPipeline
import torch

pipe = StableDiffusionPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0",
    torch_dtype=torch.float16,
).to("cuda")

image = pipe("GPU-кластер в дата-центре", num_inference_steps=30).images[0]

Связанные термины

Требует

Попробуйте на практике

Арендуйте GPU и запустите ML-модели в Intelion Cloud

Начать работу