Zhipu AI · MIT · open-weight

Аренда GPU для GLM-5
запуск за 5 минут,
от 168 ₽/час

Флагман Zhipu AI: 744B параметров (40B active), MIT-лицензия, agentic engineering. Self-host без квот OpenAI и утечки данных.

Серверы в РФ (Самарская обл.) Оплата картой РФ, СБП, по счёту

Популярные задачи наших клиентов

Agentic engineering

GLM-5 спроектирован под автономных агентов: tool-use, planning, multi-step reasoning. SWE-bench 77.8% — выше Claude Sonnet 4 и DeepSeek V3.2.

Генерация и ревью кода

GLM-5.1 на SWE-bench Pro 58.4 — #1 среди open-weight моделей (выше GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro). Контекст 200K.

Чат-ассистент в корпоративном контуре

GLM Chatbot Arena #1 (1451). MIT-лицензия — встраивай в свой продукт без royalty. Self-host в РФ закрывает требования по 152-ФЗ.

Другая задача? Напишите нам — подберём конфигурацию.

4 шага до запуска

Как арендовать сервер с Tesla A100

От регистрации до запуска — меньше 10 минут. Без звонков менеджеру и подписания договоров.

1

Соберите сервер

Выберите GPU, объем диска, операционную систему и тариф в конфигураторе.

2

Создайте аккаунт

Простая регистрация через Яндекс-ID, Т-Банк или электронную почту.

3

Пополните баланс

Картой или по счёту для юрлиц. Средства зачисляются мгновенно.

Запустите сервер

И он будет готов через пару минут. Подключайтесь по SSH, RDP или прямо в браузере.

Платите только за время

Остановите сервер в любой момент и неиспользованные деньги вернутся на баланс.

Скидки за долгий срок аренды

При аренде от 3-х месяцев вы получаете скидку от 5% до 25%.

Смена конфига на лету

Начните с CPU‑сервера, затем подключите GPU для тяжёлых задач.

Какую версию выбрать

MoE

GLM-4.5‑Air

106B total / 12B activeMoE

Самый практичный GLM для single-node. 12B активных весов дают скорость dense‑12B при качестве 100B+.

VRAM (bf16):
~210 ГБ
VRAM (4-bit):
~58 ГБ

2× A100 80 ГБ (bf16) / RTX 4090 48 ГБ + 80 ГБ RAM (Q4)

MoE

GLM-4.5V

106B / 12B activeMoE · Vision

Мультимодальный вариант на базе Air. SOTA на 42 vision-бенчмарках, 64K multimodal context, 3D-RoPE.

VRAM (bf16):
~215 ГБ
VRAM (4-bit):
~62 ГБ

2× A100 80 ГБ / RTX 4090 48 ГБ (Q4)

MoE

GLM-4.6

357B total / 32B activeMoE

Предыдущий флагман (релиз 30 сентября 2025). 200K context, near-parity с Claude Sonnet 4 на CC-Bench, на 15% меньше токенов чем GLM-4.5.

VRAM (bf16):
~720 ГБ
VRAM (4-bit):
~190 ГБ

8× H100 80 ГБ (bf16) / 4× A100 80 ГБ (AWQ Q4)

MoE

GLM-4.6V

106B / 12B activeMoE · Vision

Vision-вариант на базе Air (есть также 9B Flash). 128K мультимодального контекста, нативный function calling, document understanding.

VRAM (bf16):
~215 ГБ
VRAM (4-bit):
~62 ГБ

2× A100 80 ГБ / RTX 4090 48 ГБ (Q4)

ФлагманMoE

GLM-5

744B total / 40B activeMoE · Flagship

Флагман фев 2026. SWE-bench 77.8%, GPQA Diamond 86%, Chatbot Arena #1. Обучен на 28.5T токенов на Huawei Ascend.

VRAM (bf16):
~860 ГБ (8× H200)
VRAM (4-bit):
~241 ГБ (Unsloth Q2)

8× H200 141 ГБ (bf16) / 8× H100 80 ГБ (FP8) / 1× H200 + RAM (1-bit dynamic GGUF)

MoE

GLM-5.1

754B / 40B activeMoE · Flagship

Обновление 7 апреля 2026: SWE-bench Pro 58.4 — выше GPT-5.4 (57.7) и Claude Opus 4.6 (57.3). До 8 часов автономной работы над одной задачей.

VRAM (bf16):
~870 ГБ
VRAM (4-bit):
~245 ГБ

8× H200 (bf16) / 8× H100 (FP8)

4 способа запуска

Запустите одной командой

После создания сервера подключитесь по SSH и выберите подходящий инструмент.

Стандарт для production. Для GLM-5 нужен FP8-вариант (zai-org/GLM-5-FP8) и 8× H100/H200. Для GLM-4.5-Air достаточно 2× A100 80 ГБ. Требуется vLLM ≥ 0.10.x.

# В Ubuntu 24 ставим vLLM в venv:
python3 -m venv /opt/vllm && source /opt/vllm/bin/activate
pip install 'vllm>=0.10.0'
# GLM-4.5-Air на 2× A100 80GB (bf16):
vllm serve zai-org/GLM-4.5-Air \
  --tensor-parallel-size 2 \
  --max-model-len 128000 \
  --gpu-memory-utilization 0.92 \
  --trust-remote-code
# GLM-5-FP8 на 8× H100 80GB:
# vllm serve zai-org/GLM-5-FP8 --tensor-parallel-size 8 \
#   --max-model-len 200000 --trust-remote-code
Запустить GLM-5

~168 ₽/час · посекундная оплата

Выберите конфигурацию сервера

Укажите параметры и запустите сервер за несколько минут

Тестовый запуск

Тестовый период
для бизнеса

Мы уверены в железе — поэтому даём потестировать до покупки.
Подключитесь по ЭДО, напишите нам, и мы обсудим условия тестового запуска.

Как получить:

  • 1 Подключитесь к нам по ЭДО
  • 2 Напишите нам
  • 3 Получите сервер с Tesla A100

Данные для подключения по ЭДО:

Оператор: АО «Калуга Астрал»

ID: 2AEE383BDF8-E70C-4F74-9E7E-995E8AC21999

Написать нам

Почему арендуют у нас

Серверы работают , мы следим

Мониторинг оборудования 24/7. Неисправный компонент заменим по гарантии без доплат.

Платите только за вычисления

Посекундная тарификация. Выключили сервер — счётчик остановился, данные на диске сохраняются. Скидки до 25% при оплате за 12 месяцев.

Поддержка, а не тикет-система

Сразу инженер, который разбирается в CUDA, PyTorch и настройке GPU-серверов. Ответ — до 15 минут.

Вопросы и ответы

Для старта — GLM-4.5‑Air через Ollama или vLLM. 106B/12B active влезает на 2× A100 80 ГБ или одну RTX 4090 48 ГБ с Q4-квантизацией. Для агентных задач и продакшна — GLM-4.6 (355B/32B). Полный GLM-5 требует 8× H100/H200 — это уровень enterprise-кластера.

Да. Все open-weight варианты GLM (4.5, 4.5-Air, 4.5V, 4.6, 4.6V, 5, 5.1) под MIT-лицензией. Можно встраивать в продукт, продавать, модифицировать веса, перепродавать API. Никаких ограничений на коммерческое использование, в отличие от Llama community license.

В bf16 — около 860 ГБ VRAM, минимум 8× H200 141 ГБ. FP8-квант (zai-org/GLM-5-FP8) — 8× H100 80 ГБ. Unsloth Dynamic 2-bit GGUF (~241 ГБ) — поместится на 1× H200 + 128 ГБ RAM. Для типичной задачи берите GLM-4.5-Air или GLM-4.6 — они дают 80% качества при 10× меньшем железе.

Да, для GLM-4.6 и GLM-5 качество русского на уровне Qwen3-32B и DeepSeek V3.2. Маленькие GLM-4.5-Air заметно слабее на русском, чем на английском или китайском. Для русскоязычного продакшна берите от 32B активных параметров (GLM-4.6 или старше).

GLM-5 сильнее на agentic/coding задачах (SWE-bench 77.8% против 58% у DeepSeek). DeepSeek V3.2 — на чистом reasoning и MMLU. Если нужен AI-агент или code-assistant — GLM-5/5.1. Если общий чат и наука — DeepSeek V3.2 чуть выгоднее по железу (DeepSeek MoE компактнее).

Сервер готов за 3–5 минут после оплаты. Дальше: установка vLLM/SGLang (~3 минуты), скачивание весов с HuggingFace — для GLM-4.5-Air около 60 ГБ (5–10 минут), для GLM-5 FP8 около 750 ГБ (1–2 часа на гигабитном канале). Итого: 10 минут до первого токена для Air, 1.5–2 часа для full GLM-5. Детали — в инструкции.

Нет. Мы запускаем open-weight веса локально на серверах в РФ (Самарская обл.). Модель не отправляет ничего наружу — это обычный inference из файла весов. Если нужен полный изолированный контур без интернета — поддержка настроит VPC и прелит модель внутри периметра.

Платите за каждую секунду работы сервера. Остановили сервер — счётчик замер, диск сохраняется отдельно (~2 ₽/час за 256 ГБ). Неиспользованный остаток на балансе возвращается. Для GLM-5 на 8× H100 разумный подход — поднимать кластер только под batch-нагрузку.

Да. Работаем с ООО/ИП по договору, оплата по счёту, НДС, ЭДО через Диадок/СБИС. В блоке «Тестовый период для бизнеса» — оператор и ID для ЭДО.

GLM-5 — релиз 11 февраля 2026 (744B / 40B active, обучен на 28.5T токенов). GLM-5.1 — обновление 7 апреля 2026 (754B / 40B active) с усиленным agentic-режимом: SWE-bench Pro 58.4 — выше GPT-5.4 (57.7) и Claude Opus 4.6 (57.3). Веса и архитектура совместимы — то же железо. Берите 5.1, если нужен текущий SOTA на coding.

Все три — китайский open-weight MoE. GLM делает упор на agentic engineering и tool-use (нативный parser в SGLang). Qwen — самое широкое семейство (от 0.5B до 235B, плюс Coder/VL). DeepSeek — лучший reasoning на математике. Под чистый AI-агент с tool-calling берите GLM-5/5.1, под общую LLM-задачу — посмотрите Qwen или DeepSeek V3.2.

На май 2026 — нет, Z.ai пока не выпустила GLM-5-Air. Сообщество просит, но официально доступен только full 744B. Для single-GPU сценариев берите GLM-4.5-Air (106B/12B) — он отлично заходит на одну A100 80 ГБ в Q4. По возможностям он близок к GPT-4-class, для большинства production-задач этого хватает.

GLM-5 на вашем GPU
От 168 ₽/час, посекундная оплата.

Оплата в рублях, посекундно. Поддержка 24/7. Запуск за 5 минут.