Alibaba · Apache 2.0 · open‑weight

Аренда GPU для Qwen 3
запуск за 5 минут,
от 168₽/час

Серверы под Qwen3‑8B, 14B, 32B, MoE 30B‑A3B, Qwen3‑Coder и Qwen3‑VL.
Посекундная оплата в рублях, запуск за 5 минут.

Серверы в РФ (Самарская обл.) Оплата картой РФ, СБП, по счёту

Популярные задачи наших клиентов

Свой ChatGPT в контуре

Qwen3‑32B или 3.5-27B — один из лучших open‑source LLM на русском. Данные не уходят наружу, без лимитов OpenAI.

Окупается vs API OpenAI примерно с 3–5 млн токенов/день.

Coding‑агент на Qwen3‑Coder

Qwen3‑Coder на SWE‑bench Verified ~71% — сопоставим с Claude Sonnet 4 (~70%). Контекст 256K, нативный tool‑use.

Встраивается в Cursor, Continue, aider через OpenAI‑совместимый API.

Fine-tuning под свой датасет

LoRA / QLoRA через Unsloth: Qwen3‑14B на A100 — 6–12 часов обучения. Лицензия Apache 2.0 — можно продавать продукт.

В 2× быстрее и в 2× меньше VRAM с Unsloth vs transformers.

Другая задача? Напишите нам — подберём конфигурацию.

4 шага до запуска

Как арендовать сервер с Tesla A100

От регистрации до запуска — меньше 10 минут. Без звонков менеджеру и подписания договоров.

1

Соберите сервер

Выберите GPU, объем диска, операционную систему и тариф в конфигураторе.

2

Создайте аккаунт

Простая регистрация через Яндекс-ID, Т-Банк или электронную почту.

3

Пополните баланс

Картой или по счёту для юрлиц. Средства зачисляются мгновенно.

Запустите сервер

И он будет готов через пару минут. Подключайтесь по SSH, RDP или прямо в браузере.

Платите только за время

Остановите сервер в любой момент и неиспользованные деньги вернутся на баланс.

Скидки за долгий срок аренды

При аренде от 3-х месяцев вы получаете скидку от 5% до 25%.

Смена конфига на лету

Начните с CPU‑сервера, затем подключите GPU для тяжёлых задач.

Какую версию Qwen выбрать

Линейка Qwen 3 — от 0,8B до 397B параметров. Мы покажем варианты, которые реально запускаются на доступных у нас GPU.

Qwen3‑7B / 8B
7-8BDense

Чат, простые агенты. Fine-tuning через Unsloth влезает на одну A10.

VRAM (bf16):~16 ГБ
VRAM (4-bit):~5 ГБ
RTX 3090 / A10 / A5000 (24 ГБ)
Qwen3‑14B
14BDense

Баланс качества и цены. Хороший чат-бот, ассистент, эмбеддинги.

VRAM (bf16):~30 ГБ
VRAM (4-bit):~9 ГБ
RTX 4090 48 ГБ (bf16) / 24 ГБ GPU (Q4)
Qwen3‑32B
32BDense

Рабочая лошадка open‑source LLM 2026. Лучший outcome на размер.

VRAM (bf16):~64 ГБ
VRAM (4-bit):~19 ГБ
A100 80 ГБ (bf16) / RTX 4090 48 ГБ (AWQ)
MoE
Qwen3‑30B‑A3B
30B total / 3B activeMoE

MoE‑архитектура: скорость 3B при качестве 30B. Инференс в 3–5× быстрее dense 30B.

VRAM (bf16):~60 ГБ
VRAM (4-bit):~16 ГБ
A100 80 ГБ (bf16) / RTX 4090 48 ГБ (Q4)
Qwen3‑Coder‑30B
30B / 3B activeMoE · Coder

Специализирована под код. Agentic coding, tool‑use, контекст до 256K.

VRAM (bf16):~60 ГБ
VRAM (4-bit):~16 ГБ
A100 80 ГБ / RTX 4090 48 ГБ
Qwen3‑VL‑30B‑A3B
30B / 3B activeMoE · Vision

Понимает изображения, диаграммы, документы нативно — без отдельного OCR.

VRAM (bf16):~62 ГБ
VRAM (4-bit):~18 ГБ
A100 80 ГБ / RTX 4090 48 ГБ
Qwen3.5‑27B
27BDense

Свежая dense-модель фев 2026. Сопоставима с Qwen2.5-72B при вдвое меньшем размере.

VRAM (bf16):~54 ГБ
VRAM (4-bit):~16 ГБ
A100 80 ГБ (bf16) / RTX 4090 48 ГБ (Q8)
Флагман
Qwen3.6‑35B‑A3B
35B / 3B activeMoE · Flagship

Флагман апреля 2026. Гибридный reasoning, GPQA 86%, SWE‑bench 73%.

VRAM (bf16):~70 ГБ
VRAM (4-bit):~20 ГБ
A100 80 ГБ (fp8) / RTX 4090 48 ГБ (Q4)
Флагманлучший outcome
MoEMoE — скорость малой модели при качестве большой
4 способа запуска

Запустите Qwen одной командой

После создания сервера подключитесь по SSH и выберите подходящий инструмент. Первый токен — через 5–10 минут.

Стандарт для production inference. PagedAttention, tensor parallelism, OpenAI‑совместимый API. Требуется vLLM ≥ 0.9.x, Python 3.11.

# В Ubuntu 24 системный Python — managed, ставим в venv:
python3 -m venv /opt/vllm && source /opt/vllm/bin/activate
pip install 'vllm>=0.9.0'
vllm serve Qwen/Qwen3-32B \
  --tensor-parallel-size 1 \
  --max-model-len 32768 \
  --gpu-memory-utilization 0.90 \
  --reasoning-parser deepseek_r1

Самый быстрый старт. Ollama сама скачает модель, поднимет API на 11434.

curl -fsSL https://ollama.com/install.sh | sh
ollama serve &
ollama run qwen3:32b
# Для MoE-варианта:
ollama run qwen3:30b-a3b-q4_K_M

Альтернатива vLLM с поддержкой длинного контекста (dual‑chunk attention до 1M токенов).

python3 -m venv /opt/sglang && source /opt/sglang/bin/activate
pip install 'sglang[all]'
python3 -m sglang.launch_server \
  --model-path Qwen/Qwen3-30B-A3B-Instruct-2507-FP8 \
  --tp 2 --attention-backend fa3 \
  --trust-remote-code

Для 4-bit квантизации (Q4_K_M). Помещает 32B на 24 ГБ, 72B на 48 ГБ.

# Установка (Ubuntu 24.04, CUDA 12.x, CMake-сборка)
apt-get update && apt-get install -y git cmake build-essential
export PATH=/usr/local/cuda/bin:$PATH
git clone https://github.com/ggml-org/llama.cpp && cd llama.cpp
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j
# Запуск сервера с Qwen3-32B Q4:
./build/bin/llama-server -m Qwen3-32B-Q4_K_M.gguf \
  -c 32768 -ngl 999 --host 0.0.0.0 --port 8080
Создать сервер с A100 80 ГБ

~168 ₽/час · посекундная оплата

Выберите конфигурацию сервера

Укажите параметры и запустите сервер за несколько минут

Тестовый запуск

Тестовый период
для бизнеса

Мы уверены в железе — поэтому даём потестировать до покупки.
Подключитесь по ЭДО, напишите нам, и мы обсудим условия тестового запуска.

Как получить:

  • 1 Подключитесь к нам по ЭДО
  • 2 Напишите нам
  • 3 Получите сервер с Tesla A100

Данные для подключения по ЭДО:

Оператор: АО «Калуга Астрал»

ID: 2AEE383BDF8-E70C-4F74-9E7E-995E8AC21999

Написать нам

Почему арендуют у нас

Серверы работают , мы следим

Мониторинг оборудования 24/7. Неисправный компонент заменим по гарантии без доплат.

Платите только за вычисления

Посекундная тарификация. Выключили сервер — счётчик остановился, данные на диске сохраняются. Скидки до 25% при оплате за 12 месяцев.

Поддержка, а не тикет-система

Сразу инженер, который разбирается в CUDA, PyTorch и настройке GPU-серверов. Ответ — до 15 минут.

Вопросы и ответы

Для старта — Qwen3‑8B через Ollama. Влезает на любую GPU от 24 ГБ (RTX 3090, A10), запускается одной командой. Если нужен лучший outcome — Qwen3‑32B на A100 80 ГБ. Для кода — Qwen3‑Coder‑30B.

В bf16 — нет (нужно ~64 ГБ). В AWQ‑квантизации (~19 ГБ) — да, с запасом под контекст 32K и batch. На A100 80 ГБ — можно bf16 без компромиссов. Для 4090 48 ГБ см. отдельный лендинг.

Да. Все open‑weight модели Qwen3 лицензированы под Apache 2.0 — можно встраивать в продукт, продавать, модифицировать. Закрытые Qwen3.6‑Plus и Max-Preview — только через Alibaba API, их мы не используем.

Для моделей от 14B и выше — качество русского языка на уровне Llama 3.3 70B и лучше, чем у Mistral. Для MoE 30B‑A3B и особенно Qwen3.5‑27B — один из лучших open‑source LLM по русскому. Модели <4B слабее английского.

Сервер готов за 3–5 минут после оплаты. Дальше — установка vLLM или Ollama (~2 минуты), скачивание весов с HuggingFace (10–30 ГБ, 1–3 минуты на гигабитном канале). Итого 5–10 минут до первого токена. Детали подключения по SSH — в инструкции.

Нет. Мы запускаем open‑weight веса локально на серверах в РФ (Самарская обл.). Модель не отправляет данные наружу. Если нужен полный изолированный контур — поддержка настроит VPC‑подключение.

Платите за каждую секунду работы сервера. Остановили сервер — счётчик замер, диск сохраняется отдельно (~2 ₽/час за 256 ГБ). Неиспользованный остаток возвращается на баланс.

Да. Работаем с ООО/ИП по договору, оплата по счёту, НДС, ЭДО через Диадок/СБИС. В блоке «Тестовый период для бизнеса» — оператор и ID для ЭДО.

Порог окупаемости self-host против OpenAI API ~3–5 млн токенов в день на RTX 4090. Если нагрузка выше — свой сервер выгоднее в 3–10× плюс контроль данных и отсутствие лимитов.

Qwen3/3.5/3.6 по умолчанию включают thinking-mode — модель «думает» перед ответом. Точность выше, но latency растёт в 3–5×. Для продакшн-чата выключите флагом --default-chat-template-kwargs '{"enable_thinking": false}'.

A100 80 ГБ — оптимально: влезает в bf16 + LoRA adapters + batch 4–8. RTX 4090 48 ГБ — подойдёт для QLoRA (4-bit base). Поддержка Unsloth поверх — в 2× быстрее и в 2× меньше VRAM.

Qwen 3 на вашем GPU.
От 168 ₽/час, посекундная оплата.

Оплата в рублях, посекундно. Поддержка 24/7. Запуск за 5 минут.