Zhipu AI · CogVideoX License · open-weight

Аренда GPU для CogVideoX 1.5
запуск за 5 минут,
от 168 ₽/час

Open-weight видео-генератор от Zhipu AI. 5B параметров, до 10 секунд 1360×768 на A100 80 ГБ. Коммерческое использование разрешено по CogVideoX License.

Серверы в РФ (Самарская обл.) Оплата картой РФ, СБП, по счёту

Популярные задачи наших клиентов

Text-to-Video для маркетинга

Короткие ролики 5-10 секунд под рекламу, соцсети, креативы. 1360×768 — близко к 720p, можно апскейлить до 1080p.

Оживление статичных изображений

I2V вариант анимирует фотографии, иллюстрации, кадры. Сценарий через текстовый prompt + входное изображение.

Сторибординг и pre-vis

Быстрая визуализация сцен для режиссёров и аниматоров. Дешевле раскадровки художником, ближе чем text-описание.

Другая задача? Напишите нам — подберём конфигурацию.

4 шага до запуска

Как арендовать сервер с Tesla A100

От регистрации до запуска — меньше 10 минут. Без звонков менеджеру и подписания договоров.

1

Соберите сервер

Выберите GPU, объем диска, операционную систему и тариф в конфигураторе.

2

Создайте аккаунт

Простая регистрация через Яндекс-ID, Т-Банк или электронную почту.

3

Пополните баланс

Картой или по счёту для юрлиц. Средства зачисляются мгновенно.

Запустите сервер

И он будет готов через пару минут. Подключайтесь по SSH, RDP или прямо в браузере.

Платите только за время

Остановите сервер в любой момент и неиспользованные деньги вернутся на баланс.

Скидки за долгий срок аренды

При аренде от 3-х месяцев вы получаете скидку от 5% до 25%.

Смена конфига на лету

Начните с CPU‑сервера, затем подключите GPU для тяжёлых задач.

Какую версию выбрать

Флагман

CogVideoX1.5‑5B (T2V)

5BDense · Text-to-Video

Флагман линейки. Text‑to‑Video до 1360×768, 5 или 10 секунд (81 / 161 кадр) при 16 fps. Обучена в bf16.

VRAM (bf16):
~24-32 ГБ
VRAM (4-bit):
~12-16 ГБ

A100 80 ГБ (bf16) / RTX 4090 48 ГБ (fp8)

CogVideoX1.5‑5B‑I2V

5BDense · Image-to-Video

Image‑to‑Video вариант. Анимирует статичную картинку до 10 сек 1360×768. Минимальная сторона входа — 768 px.

VRAM (bf16):
~24-32 ГБ
VRAM (4-bit):
~12-16 ГБ

A100 80 ГБ (bf16) / RTX 4090 48 ГБ (fp8)

CogVideoX‑5B (1.0)

5BDense · Legacy

Предыдущее поколение. 720×480, 49 кадров (~6 сек). Меньше VRAM, быстрее инференс, шире LoRA-экосистема.

VRAM (bf16):
~16-23 ГБ
VRAM (4-bit):
~9-12 ГБ

RTX 4090 48 ГБ / A100 40 ГБ

CogVideoX‑2B

2BDense · Lite

Облегчённая модель в fp16. Подходит для прототипов, колаб-демо и быстрых тестов на одной 24 ГБ карте.

VRAM (bf16):
~12 ГБ
VRAM (4-bit):
~6 ГБ

RTX 3090 / A10 / A5000 (24 ГБ)

4 способа запуска

Запустите одной командой

После создания сервера подключитесь по SSH и выберите подходящий инструмент.

Официальный путь от Hugging Face. CogVideoXPipeline из transformers/diffusers, поддержка bf16, fp8 квантизации, CPU offload и enable_sequential_cpu_offload для запуска даже на 12 ГБ VRAM.

# Ubuntu 24, CUDA 12.x. В venv:
python3 -m venv /opt/cog && source /opt/cog/bin/activate
# transformers <5.0 — у новых ломается T5-токенизатор CogVideoX
pip install --upgrade torch 'transformers<5.0' diffusers accelerate \
  imageio-ffmpeg sentencepiece protobuf \
  --extra-index-url https://download.pytorch.org/whl/cu128
python3 - <<'PY'
import torch
from diffusers import CogVideoXPipeline
from diffusers.utils import export_to_video
from transformers import T5Tokenizer
# Явно загружаем slow T5-tokenizer (быстрый ломается на spiece.model)
tok = T5Tokenizer.from_pretrained(
    'THUDM/CogVideoX1.5-5B', subfolder='tokenizer')
pipe = CogVideoXPipeline.from_pretrained(
    'THUDM/CogVideoX1.5-5B', torch_dtype=torch.bfloat16,
    tokenizer=tok,
).to('cuda')
pipe.enable_model_cpu_offload()
video = pipe(
    prompt='A panda surfing on a wave at sunset, cinematic 4k',
    num_frames=81, num_inference_steps=50, guidance_scale=6.0,
).frames[0]
export_to_video(video, 'out.mp4', fps=16)
PY
Запустить CogVideoX 1.5

~168 ₽/час · посекундная оплата

Выберите конфигурацию сервера

Укажите параметры и запустите сервер за несколько минут

Тестовый запуск

Тестовый период
для бизнеса

Мы уверены в железе — поэтому даём потестировать до покупки.
Подключитесь по ЭДО, напишите нам, и мы обсудим условия тестового запуска.

Как получить:

  • 1 Подключитесь к нам по ЭДО
  • 2 Напишите нам
  • 3 Получите сервер с Tesla A100

Данные для подключения по ЭДО:

Оператор: АО «Калуга Астрал»

ID: 2AEE383BDF8-E70C-4F74-9E7E-995E8AC21999

Написать нам

Почему арендуют у нас

Серверы работают , мы следим

Мониторинг оборудования 24/7. Неисправный компонент заменим по гарантии без доплат.

Платите только за вычисления

Посекундная тарификация. Выключили сервер — счётчик остановился, данные на диске сохраняются. Скидки до 25% при оплате за 12 месяцев.

Поддержка, а не тикет-система

Сразу инженер, который разбирается в CUDA, PyTorch и настройке GPU-серверов. Ответ — до 15 минут.

Вопросы и ответы

В bf16 (как обучали) — 24-32 ГБ VRAM: оптимально A100 80 ГБ с запасом под batch и контекст. На RTX 4090 48 ГБ идёт без вопросов. С fp8 квантизацией влезает в 12-16 ГБ — подойдёт RTX 3090, A10 24 ГБ. На 12 ГБ нужен enable_sequential_cpu_offload.

Да, с разными условиями по версиям. CogVideoX‑2B идёт под Apache 2.0 — без оговорок. CogVideoX1.5‑5B, 5B (1.0) и 5B‑I2V — под кастомной CogVideoX License: коммерция разрешена, можно встраивать в продукт, продавать ролики и дообучать. Указание авторства Zhipu AI / THUDM рекомендуется по ToS.

Зависит от задачи. CogVideoX 1.5 — самая зрелая LoRA-экосистема и лучший I2V среди открытых. Wan 2.1 (14B) — выше абсолютное качество T2V, но требует больше VRAM. HunyuanVideo (13B) — лучшая длина и temporal consistency, но дороже в инференсе. CogVideoX выигрывает по балансу качество/VRAM/экосистема.

До 1360×768 (нативно), минимальная сторона входа в I2V — 768 px. Длительность — 5 или 10 секунд при 16 fps (81 или 161 кадр). 720p апскейл до 1080p/4K через Real-ESRGAN или Topaz Video AI на той же машине.

На A100 80 ГБ в bf16 — ~3-5 минут на 5-секундный 1360×768 ролик (50 шагов, guidance 6.0). 10-секундный — ~6-10 минут. На RTX 4090 48 ГБ примерно столько же. С fp8 квантизацией медленнее в 1.5-2×.

ComfyUI + wrapper Kijai (ComfyUI-CogVideoXWrapper, ветка 1.5_test). Качаем веса Kijai/CogVideoX-5b-1.5 (уже квантизованные fp8/qint8) или официальные THUDM/CogVideoX1.5-5B. Запуск — python3 main.py --listen 0.0.0.0 --port 8188, доступ через SSH-туннель или Cloudflare. Детали — в quick‑start выше.

Сервер готов за 3-5 минут после оплаты. Дальше — установка diffusers/ComfyUI (~3-5 минут), скачивание весов с HuggingFace (~22 ГБ для bf16 5B, 5-15 минут на гигабитном канале). Итого 10-20 минут до первого видео. Инструкция по SSH — тут.

Да. CogVideoX — лидер по зрелости LoRA-экосистемы среди open-source видео. Официальный тренер в репозитории zai-org/CogVideo/finetune/, также diffusers-based скрипты и комьюнити-туториалы. Минимум A100 80 ГБ для full‑rank, на 48 ГБ идёт LoRA с QLoRA. Время — 4-12 часов на датасете 30-100 клипов.

Нет. Мы запускаем open‑weight веса локально на серверах в РФ (Самарская обл.). Модель полностью оффлайн, в интернет не ходит. Для NDA-контура поддержка настроит VPC-подключение и закрытый сегмент.

Платите за каждую секунду работы сервера. Запустили batch из 50 промптов на 4 часа — заплатите за 4 часа. Остановили после первого ролика — счётчик замер. Диск отдельно (~2 ₽/час за 256 ГБ), чтобы веса не качать заново.

Да. Работаем с ООО/ИП по договору, оплата по счёту, НДС, ЭДО через Диадок/СБИС. В блоке «Тестовый период для бизнеса» — оператор и ID для ЭДО, либо напишите в чат поддержки — оформим.

CogVideoX 1.5 на вашем GPU
От 168 ₽/час, посекундная оплата.

Оплата в рублях, посекундно. Поддержка 24/7. Запуск за 5 минут.