51
27 апреля 2026
AI-генерация видео на GPU: Sora, Luma, AnimateDiff, Mochi и другие
Обзор моделей text-to-video, требования к GPU и как запустить open-source альтернативы Sora в облаке
Text-to-video — следующий шаг после text-to-image. Если в 2023-м всех удивили Midjourney и Stable Diffusion, то в 2024-2025-м эстафету перехватили Sora от OpenAI, Luma Dream Machine, Runway Gen-3 и волна open-source моделей. В этом гайде разберём, что доступно сегодня, какие модели можно запускать локально или в облаке, и какой GPU для этого нужен.
Про цены в статье. Здесь и далее упоминаются ориентировочные цены подписок и аренды GPU по состоянию на апрель 2026. Перед покупкой / арендой сверьтесь с актуальными тарифами на сайтах сервисов и провайдеров.
Закрытые модели: Sora, Luma, Runway
Sora (OpenAI)
Sora — text-to-video модель OpenAI, генерирующая ролики до 20 секунд в разрешении до 1080p. Доступна только через ChatGPT Plus ($20/мес — 50 видео/мес, 720p, 5 сек) и ChatGPT Pro ($200/мес — 500 видео/мес, 1080p, до 20 сек).
Важно: Sora нельзя запустить локально. OpenAI не публиковала веса модели, и публичного API для self-hosted-вариантов нет. Все приложения для Android/iOS, которые рекламируются как «Sora APK» или «Sora на android» — это сторонние клиенты, оборачивающие официальный ChatGPT-API, либо клоны на других моделях.
Если вам нужна сопоставимая по качеству генерация без зависимости от OpenAI — переходите к open-source альтернативам ниже.
Luma Dream Machine
Luma AI выпустили Dream Machine в июне 2024 — облачную text-to-video модель с упором на скорость и стилизацию. Доступна на сайте lumalabs.ai по подписке от $30/мес (Standard, 150 видео/мес) до $400/мес (Premier, безлимит). Есть API.
Dream Machine тоже не запускается локально — Luma не публиковала веса. Это чисто облачный сервис.
Runway Gen-3 и Gen-4
Runway — пионер AI-видео, версия Gen-3 (август 2024) и Gen-4 (2025) поддерживают image-to-video, video-to-video и text-to-video. Доступ через runwayml.com от $15/мес (Standard).
Требования — никакие, всё работает в облаке Runway. Если планируете использовать API, текущие лимиты тоже на их стороне.
Итог по закрытым моделям: все три — облачные сервисы, локально не запустить. Идут как готовые продукты «по подписке».
Open-source: что можно запустить самому
Вот здесь GPU и облачная аренда становятся актуальны. Все эти модели публикуют веса под Apache 2.0 / RAIL-M / Custom лицензиями и запускаются на одном GPU.
AnimateDiff + ControlNet + IP-Adapter
Классика, на которой выросло сообщество AI-видео — расширения Stable Diffusion для генерации коротких клипов (16-32 кадра, ~2-4 секунды).
- AnimateDiff превращает любой Stable Diffusion checkpoint в видеомодель, добавляя motion module.
- ControlNet даёт контроль над композицией через depth/pose/canny карты.
- IP-Adapter позволяет задать стиль изображением-референсом.
Запускается через ComfyUI workflow за 2-5 минут на запрос. Идеально для коротких стилизованных клипов (анимация персонажей, motion graphics, циклические лупы).
VRAM: 12-24 ГБ (зависит от длины и разрешения).
Mochi-1 (Genmo)
Mochi-1 — open-source text-to-video от Genmo, выпущен в октябре 2024 под Apache 2.0. 10-миллиардная диффузионная модель, генерирует видео 480p длиной 5.4 секунды (61 кадр @ 30 fps). Качество на уровне ранней Sora.
Официальный репозиторий: github.com/genmoai/models. Запускается через ComfyUI или их собственный inference-скрипт.
VRAM: требует 60+ ГБ для full-precision. На 24 ГБ работает FP8-квантованная версия (есть в community). На 80 ГБ (A100/H100) — FP16 без потерь.
HunyuanVideo (Tencent)
HunyuanVideo — 13-миллиардная text-to-video модель от Tencent, опубликована в декабре 2024. На момент релиза была лучшей open-source моделью по качеству, обогнав Mochi и CogVideoX в большинстве бенчмарков. Поддерживает разрешения до 1280×720 и длину до 5 секунд.
VRAM: 60 ГБ нативно, 24 ГБ с FP8 + offloading (медленнее).
Wan 2.1 (Alibaba)
Wan 2.1 — text-to-video и image-to-video модель Alibaba (январь 2025). Выпущена в нескольких размерах: 1.3B (для 8 ГБ VRAM), 14B (полная). 14B-версия по качеству близка к Sora-туру 2024.
VRAM: 1.3B — 8 ГБ, 14B — 40 ГБ (FP16) или 24 ГБ (FP8).
CogVideoX и Open-Sora
CogVideoX (THUDM) и Open-Sora (HPC-AI Tech) — две стартовавшие раньше китайские альтернативы. По состоянию на 2026 уступают HunyuanVideo и Mochi-1 по качеству, но активно дорабатываются и удобны для исследовательских задач.
Topaz Video AI — отдельный класс
Topaz Video AI — не генератор видео из текста, а апскейлер и реставратор. Берёт ваше существующее видео (например, 480p) и повышает разрешение до 4K, удаляет шум, восстанавливает деинтерлейс и interpolation между кадрами для замедленного воспроизведения.
Это платная программа ($299 разово), работает локально на любом GPU от GTX 1660 (6 ГБ) до RTX 4090. На RTX 4090 апскейл 1080p→4K проходит ~1-2 раза от реального времени видео.
Если тема видеокачества вам ближе, чем генерация — у нас есть отдельный гайд по апскейлу видео на GPU.
Требования к GPU: сводная таблица
| Модель | Минимум VRAM | Рекомендуемый GPU | Время на 5-сек клип |
|---|---|---|---|
| AnimateDiff (16 кадров) | 12 ГБ | RTX 3090 / 4090 | 30-90 сек |
| Wan 2.1 (1.3B) | 8 ГБ | RTX 3060 / 4060 | 2-5 мин |
| Wan 2.1 (14B FP8) | 24 ГБ | RTX 4090 / RTX 3090 | 4-8 мин |
| Wan 2.1 (14B FP16) | 40 ГБ | A100 40GB / A6000 | 3-6 мин |
| Mochi-1 (FP8) | 24 ГБ | RTX 4090 | 8-12 мин |
| Mochi-1 (FP16) | 80 ГБ | A100 80GB / H100 | 5-8 мин |
| HunyuanVideo (FP8) | 24 ГБ | RTX 4090 | 10-15 мин |
| HunyuanVideo (FP16) | 80 ГБ | H100 | 6-10 мин |
| CogVideoX-5B | 16 ГБ | RTX 4090 | 5-8 мин |
Что важно знать о VRAM
В отличие от LLM, где VRAM в основном занимают веса модели и KV-cache, в text-to-video бóльшая часть памяти расходится на активации при diffusion-проходах: каждый шаг семплинга держит в памяти латенты для всех кадров одновременно. Поэтому длина клипа напрямую влияет на VRAM: 5 секунд при 30 fps = 150 кадров × разрешение × кол-во каналов.
Если VRAM не хватает — не пытайтесь сразу искать GPU помощнее. Сначала попробуйте:
- FP8 / Int8 квантизацию модели (часто −40% VRAM при минимальной потере качества)
- CPU offload для VAE и текстового энкодера (вынос tokenizer-части в RAM)
- Сокращение длины клипа (16 кадров вместо 61)
- Понижение разрешения (480p вместо 720p)
Когда нужен 80 ГБ VRAM
Короткий ответ: когда хочется максимального качества Mochi-1 / HunyuanVideo без компромиссов или нужно генерировать видео в 720p+ длиной 5+ секунд в FP16.
Для исследовательских целей (быстрые итерации, эксперименты с моделями) удобнее A100 80 ГБ или H100 — на них помещается любая текущая open-source модель в полной точности. На RTX 4090 (24 ГБ) приходится постоянно жонглировать FP8-квантизациями и offloading, что замедляет workflow.
Для продакшен-генерации (батч-обработка, автоматизированные пайплайны) экономичнее использовать RTX 4090 с FP8, либо несколько RTX 4090 параллельно (model parallelism).
Запуск open-source модели в облаке: пошагово
Практический сценарий: хотите попробовать Mochi-1, но дома не подходит ни RTX 4090, ни A100. Берёте облачный GPU.
1. Выбор GPU. Для разовой генерации/проб — RTX 4090 (24 ГБ, ~150 ₽/час). Для активной работы или коммерческого использования — A100 80GB (~330 ₽/час) или H100 (~485 ₽/час).
2. Подключение. Создайте сервер (например, с готовым образом ComfyUI), подключитесь по SSH или через веб-консоль. У нас есть гайд по подключению.
3. Установка ComfyUI workflow для видео.
# Установка ComfyUI
git clone https://github.com/comfyanonymous/ComfyUI
cd ComfyUI
pip install -r requirements.txt
# Установка ComfyUI-MochiWrapper (или -HunyuanVideoWrapper)
cd custom_nodes
git clone https://github.com/kijai/ComfyUI-MochiWrapper
# Скачивание весов Mochi (FP8)
wget -P models/diffusion_models/ https://huggingface.co/Kijai/Mochi_preview_comfy/resolve/main/mochi_preview_dit_fp8_e4m3fn.safetensors
# Запуск
python main.py --listen 0.0.0.0 --port 8188
4. Generate. Откройте http://your-server:8188, загрузите example workflow для Mochi, введите промпт, нажмите Queue Prompt.
Если не хочется возиться с установкой, выберите наш готовый образ ComfyUI — там уже всё настроено.
FAQ
Можно ли запустить Sora локально?
Нет. OpenAI не публиковала веса. Доступ только через ChatGPT Plus / Pro подписку. Если нужно «как Sora, но локально» — берите HunyuanVideo или Mochi-1.
Какой GPU нужен для AnimateDiff?
RTX 3090 (24 ГБ) или RTX 4090 хватит за глаза для 16-32 кадров в 768×768. Можно работать даже на RTX 3060 (12 ГБ), но медленнее.
Что лучше: Luma Dream Machine или open-source?
Luma — быстрее и проще для нерегулярного использования (заплатил $30 — генерируешь). Open-source даёт больше контроля и неограниченный объём. Точка перехода — около 50 видео в месяц. Если генерируете больше — open-source на арендованном GPU дешевле и предсказуемее.
Сколько стоит сгенерировать минуту видео на open-source модели?
60 секунд видео = ~12 клипов по 5 секунд. На RTX 4090 (~150 ₽/час) с Mochi-1 FP8 один клип занимает 10 минут, итого ~2 часа GPU-времени = 300 ₽ за минуту видео. На H100 — быстрее и дороже за час, но дешевле за минуту видео.
Можно ли арендовать GPU почасово только под генерацию?
Да. У нас pay-as-you-go: оплата по минутам, сервер можно остановить и не платить за простой. Подойдёт RTX 4090 для проб, A100 80GB или H100 для серьёзных задач.
На каких GPU Wan 2.1 (1.3B) реально работает?
GeForce RTX 3060 12 GB, RTX 4060 Ti 16 GB, RTX 3070, RTX 4070 Super. Это та редкая модель, которая помещается даже на потребительских картах.
Итог
- Sora, Luma и Runway — облачные сервисы по подписке, локально не запускаются. Для разовых задач — нормально, для регулярной работы — дорого и без контроля.
- Open-source альтернативы (AnimateDiff, Mochi-1, HunyuanVideo, Wan 2.1) — конкурентны по качеству и запускаются на одном GPU. Это путь, если нужен контроль, объём или коммерческое использование.
- Минимальный стартовый GPU — RTX 3090/4090 (24 ГБ) для FP8-квантизаций популярных моделей. Оптимальный — A100 80GB или H100 для full-precision и быстрых итераций.
- VRAM в text-to-video расходится не на веса, а на активации — длина клипа важнее, чем размер модели.
Хотите попробовать Mochi-1, HunyuanVideo или AnimateDiff в облаке? Арендуйте GPU-сервер в Интелион Облако — посекундная оплата, готовый образ ComfyUI, запуск за 3 минуты.
#GPU
#AI
#video generation
#Sora
#Luma Dream Machine
#Runway
#AnimateDiff
#Mochi
#HunyuanVideo
#ControlNet
#text-to-video
#генерация видео нейросетью