Question 1

Какую версию Qwen выбрать, если я новичок?

Accepted Answer

Для старта — Qwen3‑8B через Ollama. Влезает на любую GPU от 24 ГБ (RTX 3090, A10), запускается одной командой. Если нужен лучший outcome — Qwen3‑32B на A100 80 ГБ. Для кода — Qwen3‑Coder‑30B.

Question 2

Хватит ли 48 ГБ (RTX 4090) под Qwen3‑32B?

Accepted Answer

В bf16 — нет (нужно ~64 ГБ). В AWQ‑квантизации (~19 ГБ) — да, с запасом под контекст 32K и batch. На A100 80 ГБ — можно bf16 без компромиссов. Для 4090 48 ГБ см. отдельный лендинг.

Question 3

Можно использовать Qwen в коммерческом продукте?

Accepted Answer

Да. Все open‑weight модели Qwen3 лицензированы под Apache 2.0 — можно встраивать в продукт, продавать, модифицировать. Закрытые Qwen3.6‑Plus и Max-Preview — только через Alibaba API, их мы не используем.

Question 4

Qwen хорошо работает с русским?

Accepted Answer

Для моделей от 14B и выше — качество русского языка на уровне Llama 3.3 70B и лучше, чем у Mistral. Для MoE 30B‑A3B и особенно Qwen3.5‑27B — один из лучших open‑source LLM по русскому. Модели <4B слабее английского.

Question 5

Сколько длится запуск сервера с Qwen?

Accepted Answer

Сервер готов за 3–5 минут после оплаты. Дальше — установка vLLM или Ollama (~2 минуты), скачивание весов с HuggingFace (10–30 ГБ, 1–3 минуты на гигабитном канале). Итого 5–10 минут до первого токена. Детали подключения по SSH — в инструкции.

Question 6

Данные моего запроса не утекут Alibaba?

Accepted Answer

Нет. Мы запускаем open‑weight веса локально на серверах в РФ (Самарская обл.). Модель не отправляет данные наружу. Если нужен полный изолированный контур — поддержка настроит VPC‑подключение.

Question 7

Посекундная оплата — как это работает?

Accepted Answer

Платите за каждую секунду работы сервера. Остановили сервер — счётчик замер, диск сохраняется отдельно (~2 ₽/час за 256 ГБ). Неиспользованный остаток возвращается на баланс.

Question 8

Можно с юрлица, с закрывающими документами?

Accepted Answer

Да. Работаем с ООО/ИП по договору, оплата по счёту, НДС, ЭДО через Диадок/СБИС. В блоке «Тестовый период для бизнеса» — оператор и ID для ЭДО.

Question 9

Qwen vs ChatGPT API — что дешевле в месяц?

Accepted Answer

Порог окупаемости self-host против OpenAI API ~3–5 млн токенов в день на RTX 4090. Если нагрузка выше — свой сервер выгоднее в 3–10× плюс контроль данных и отсутствие лимитов.

Question 10

Нужен ли reasoning-режим (thinking) и как его отключить?

Accepted Answer

Qwen3/3.5/3.6 по умолчанию включают thinking-mode — модель «думает» перед ответом. Точность выше, но latency растёт в 3–5×. Для продакшн-чата выключите флагом --default-chat-template-kwargs '{"enable_thinking": false}'.

Question 11

Какой GPU брать под fine‑tuning Qwen 14B с LoRA?

Accepted Answer

A100 80 ГБ — оптимально: влезает в bf16 + LoRA adapters + batch 4–8. RTX 4090 48 ГБ — подойдёт для QLoRA (4-bit base). Поддержка Unsloth поверх — в 2× быстрее и в 2× меньше VRAM.

Аренда GPU для Qwen 3
запуск за 5 минут,
от 168₽/час

Популярные задачи наших клиентов

Свой ChatGPT в контуре

Coding‑агент на Qwen3‑Coder

Fine-tuning под свой датасет

Как арендовать сервер с Tesla A100

Соберите сервер

Создайте аккаунт

Пополните баланс

Запустите сервер

Платите только за время

Скидки за долгий срок аренды

Смена конфига на лету

Какую версию Qwen выбрать

Запустите Qwen одной командой

Выберите конфигурацию сервера

Тестовый период
для бизнеса

Почему арендуют у нас

Серверы работают , мы следим

Платите только за вычисления

Поддержка, а не тикет-система

Вопросы и ответы

Qwen 3 на вашем GPU.
От 168 ₽/час, посекундная оплата.

Аренда GPU для Qwen 3 запуск за 5 минут, от 168₽/час