LMSYS · Apache 2.0 · long context

Аренда GPU для SGLang
запуск за 5 минут,
от 168 ₽/час

Высокопроизводительный сервер LLM/VLM от LMSYS. RadixAttention prefix cache, structured output, FP8/AWQ. На H100 даёт +29% throughput против vLLM на нагрузках с общими префиксами.

Серверы в РФ (Самарская обл.) Оплата картой РФ, СБП, по счёту

Популярные задачи наших клиентов

Multi-turn чат-ассистент

RadixAttention автоматически кеширует общий системный промпт и историю диалога. Время до первого токена в 2–3× меньше vLLM на длинных переписках.

Structured output для агентов

Гарантированно валидный JSON по схеме через xgrammar. Tool calls без парсинга строк. Идеально под function-calling агентов и pipeline-обвязки.

RAG с длинным контекстом

Контекст 256K–1M через dual-chunk attention. Кеширование одинаковых документов между запросами. Подходит под анализ кодовых баз, юридических архивов, медицинских историй.

Другая задача? Напишите нам — подберём конфигурацию.

4 шага до запуска

Как арендовать сервер с Tesla A100

От регистрации до запуска — меньше 10 минут. Без звонков менеджеру и подписания договоров.

1

Соберите сервер

Выберите GPU, объем диска, операционную систему и тариф в конфигураторе.

2

Создайте аккаунт

Простая регистрация через Яндекс-ID, Т-Банк или электронную почту.

3

Пополните баланс

Картой или по счёту для юрлиц. Средства зачисляются мгновенно.

Запустите сервер

И он будет готов через пару минут. Подключайтесь по SSH, RDP или прямо в браузере.

Платите только за время

Остановите сервер в любой момент и неиспользованные деньги вернутся на баланс.

Скидки за долгий срок аренды

При аренде от 3-х месяцев вы получаете скидку от 5% до 25%.

Смена конфига на лету

Начните с CPU‑сервера, затем подключите GPU для тяжёлых задач.

Что умеет SGLang

RadixAttention — prefix cache

KV-cache хранится в radix-дереве с LRU-эвикцией. Автоматический reuse общих префиксов даёт +29% throughput на multi-turn чатах, RAG-конвейерах и системных промптах.

Structured output — JSON, regex, EBNF

Constrained decoding через xgrammar: гарантированно валидный JSON по схеме, regex или EBNF-грамматика. До 2.5× быстрее обычного декодинга — token-маски считаются параллельно.

Long context до 1M токенов

Dual-chunk attention, chunked prefill, EP-decoding. Запускает Qwen3‑30B‑A3B, DeepSeek-V3.2, Llama 4 Maverick на контекстах 256K–1M без OOM.

FP4 / FP8 / AWQ / GPTQ / INT4

FP4 на Blackwell (B200, GB200/GB300), FP8 на Hopper (H100/H200) и Ada (RTX 4090), AWQ и GPTQ — на Ampere (A100, RTX 3090). Квантизация снижает VRAM в 2–4× при минимальной потере качества.

Speculative decoding

Draft-модель + verify-проход на основной. Latency output токенов падает в 1.5–2× для reasoning-моделей (DeepSeek-R1, Qwen3 Thinking). Подключается одним флагом.

TP / DP / PP / EP параллелизм

Tensor, Data, Pipeline и Expert Parallel из коробки. DeepSeek-V3 671B поднимается на multi-node (8×H100). Prefill-decode disaggregation — для inference на масштабе.

Multi-LoRA batching

Один сервер раздаёт N LoRA-адаптеров одновременно. Поддержка LoRA для MoE-слоёв (Qwen3‑MoE, DeepSeek). Идеально под мульти-тенантный inference.

OpenAI-совместимый API

/v1/chat/completions, /v1/completions, /v1/embeddings — drop-in замена для openai-клиента. Tool calls, vision, streaming, reasoning_content для thinking-моделей.

4 способа запуска

Запустите одной командой

После создания сервера подключитесь по SSH и выберите подходящий инструмент.

Базовый способ. Python 3.11+, CUDA 12.x. Ставим в venv, запускаем sglang.launch_server. OpenAI-совместимый API поднимется на :30000.

# Ubuntu 24, CUDA 12.x, Python 3.10+. Системный Python managed — ставим в venv:
python3 -m venv /opt/sglang && source /opt/sglang/bin/activate
pip install --upgrade pip
pip install sglang

# Запуск сервера на A100 80GB:
python3 -m sglang.launch_server \
  --model-path Qwen/Qwen3-32B \
  --host 0.0.0.0 --port 30000 \
  --tp 1 --mem-fraction-static 0.90 \
  --attention-backend fa3 \
  --trust-remote-code
Запустить SGLang

~168 ₽/час · посекундная оплата

Выберите конфигурацию сервера

Укажите параметры и запустите сервер за несколько минут

Тестовый запуск

Тестовый период
для бизнеса

Мы уверены в железе — поэтому даём потестировать до покупки.
Подключитесь по ЭДО, напишите нам, и мы обсудим условия тестового запуска.

Как получить:

  • 1 Подключитесь к нам по ЭДО
  • 2 Напишите нам
  • 3 Получите сервер с Tesla A100

Данные для подключения по ЭДО:

Оператор: АО «Калуга Астрал»

ID: 2AEE383BDF8-E70C-4F74-9E7E-995E8AC21999

Написать нам

Почему арендуют у нас

Серверы работают , мы следим

Мониторинг оборудования 24/7. Неисправный компонент заменим по гарантии без доплат.

Платите только за вычисления

Посекундная тарификация. Выключили сервер — счётчик остановился, данные на диске сохраняются. Скидки до 25% при оплате за 12 месяцев.

Поддержка, а не тикет-система

Сразу инженер, который разбирается в CUDA, PyTorch и настройке GPU-серверов. Ответ — до 15 минут.

Вопросы и ответы

SGLang — высокопроизводительный inference-сервер от LMSYS (авторов Chatbot Arena) под Apache 2.0. Главное отличие — RadixAttention: автоматический prefix-cache на radix-дереве. На multi-turn чатах и RAG-конвейерах с общими префиксами даёт +29% throughput и на 5–8% меньше TTFT по сравнению с vLLM. На single-turn нагрузках разница 3–5%, иногда в пользу vLLM. Запускается на 400 000+ GPU по миру.

Да. SGLang лицензирован под Apache 2.0 — можно встраивать в свой продукт, продавать, модифицировать без open-source обязательств. Веса моделей лицензируются отдельно: Llama 3.x, Qwen3, DeepSeek — все open-weight, доступны для коммерции (см. лицензии конкретных моделей на HuggingFace).

Минимум — 24 ГБ VRAM (RTX 3090, A10) под 7–8B модели в bf16 или 32B в Q4. Оптимально — A100 80 ГБ: тянет 32B bf16, 70B AWQ, MoE 30B. Для FP8 и speculative decoding нужна Hopper-архитектура (H100/H200) или Ada (RTX 4090).

Сервер готов за 3–5 минут после оплаты. Дальше — pip install sglang в venv (~2 мин) и python3 -m sglang.launch_server --model-path .... Скачивание весов с HuggingFace 10–60 ГБ — ещё 1–5 минут на гигабитном канале. Итого 5–10 минут до первого токена. Инструкция по SSH — в разделе подключения.

Llama 3.x / 4, Qwen3 (вся линейка, включая Coder, VL, MoE), DeepSeek-V3 / R1 / V3.2, Mistral, Mixtral, Gemma 3, Phi-4, GPT-OSS, GLM-4. Плюс embedding-модели и reranker'ы. Поддержка multi-LoRA и LoRA для MoE-слоёв. Полный список — на GitHub проекта.

Обычный KV-cache работает per-request: каждый запрос свой кеш, после ответа всё стирается. RadixAttention хранит KV-cache в общем radix-дереве с LRU-эвикцией: одинаковые префиксы (системный промпт, история чата, RAG-документы) переиспользуются между запросами. На multi-turn нагрузке сервис обрабатывает в 2–3× больше токенов при том же железе.

SGLang интегрирован с xgrammar. В OpenAI-API запросе передайте response_format с type: 'json_schema' и схемой. Модель гарантированно вернёт валидный JSON. Также поддерживаются regex и EBNF-грамматики через regex и ebnf поля. Constrained decoding ускоряет генерацию в 1.5–2× — token-маски считаются параллельно.

Да. Работаем с ООО/ИП по договору, оплата по счёту, НДС, ЭДО через Диадок/СБИС. В блоке «Тестовый период для бизнеса» — оператор и ID для ЭДО. Бесплатный тест от 24 часов до 7 дней под нагрузочное тестирование SGLang перед production-деплоем.

Платите за каждую секунду работы сервера. Остановили сервер — счётчик замер, диск сохраняется отдельно (~2 ₽/час за 256 ГБ). Кеш HuggingFace и venv с SGLang переживают рестарты — подняли заново и сразу серверу можно грузить веса с локального диска без повторного скачивания.

Нет. Мы запускаем open-weight веса локально на серверах в РФ (Самарская область). SGLang работает исключительно на вашем GPU — никаких внешних API, телеметрии и логирования промптов в облако. Если нужен полный изолированный контур — поддержка настроит VPC-подключение и приватную сеть.

SGLang — если у вас multi-turn чаты, агенты со structured output, RAG с общими документами. RadixAttention даёт +29% throughput и -5–8% TTFT. vLLM — если нужна более широкая экосистема (TPU, Trainium, Gaudi) или encoder-decoder модели. На single-turn unique prompts разница малозаметна. Под NVIDIA-only стек SGLang выигрывает почти всегда.

Да. FP4 — на Blackwell (B200, GB200/GB300). FP8 — на Hopper (H100, H200) и Ada (RTX 4090). AWQ, GPTQ, INT4 — на Ampere и выше. Квантизация снижает VRAM в 2–4× при потере 1–3% качества. Для 70B моделей AWQ позволяет инференс на одной A100 80 ГБ вместо двух.

SGLang на вашем GPU
От 168 ₽/час, посекундная оплата.

Оплата в рублях, посекундно. Поддержка 24/7. Запуск за 5 минут.