Question 1

Что такое SGLang и чем он отличается от vLLM?

Accepted Answer

SGLang — высокопроизводительный inference-сервер от LMSYS (авторов Chatbot Arena) под Apache 2.0. Главное отличие — RadixAttention: автоматический prefix-cache на radix-дереве. На multi-turn чатах и RAG-конвейерах с общими префиксами даёт +29% throughput и на 5–8% меньше TTFT по сравнению с vLLM. На single-turn нагрузках разница 3–5%, иногда в пользу vLLM. Запускается на 400 000+ GPU по миру.

Question 2

Можно ли использовать SGLang в коммерческом продукте?

Accepted Answer

Да. SGLang лицензирован под Apache 2.0 — можно встраивать в свой продукт, продавать, модифицировать без open-source обязательств. Веса моделей лицензируются отдельно: Llama 3.x, Qwen3, DeepSeek — все open-weight, доступны для коммерции (см. лицензии конкретных моделей на HuggingFace).

Question 3

Какой GPU нужен для SGLang?

Accepted Answer

Минимум — 24 ГБ VRAM (RTX 3090, A10) под 7–8B модели в bf16 или 32B в Q4. Оптимально — A100 80 ГБ: тянет 32B bf16, 70B AWQ, MoE 30B. Для FP8 и speculative decoding нужна Hopper-архитектура (H100/H200) или Ada (RTX 4090).

Question 4

Как быстро запустится сервер с SGLang?

Accepted Answer

Сервер готов за 3–5 минут после оплаты. Дальше — pip install sglang в venv (~2 мин) и python3 -m sglang.launch_server --model-path .... Скачивание весов с HuggingFace 10–60 ГБ — ещё 1–5 минут на гигабитном канале. Итого 5–10 минут до первого токена. Инструкция по SSH — в разделе подключения.

Question 5

Какие модели поддерживает SGLang?

Accepted Answer

Llama 3.x / 4, Qwen3 (вся линейка, включая Coder, VL, MoE), DeepSeek-V3 / R1 / V3.2, Mistral, Mixtral, Gemma 3, Phi-4, GPT-OSS, GLM-4. Плюс embedding-модели и reranker'ы. Поддержка multi-LoRA и LoRA для MoE-слоёв. Полный список — на GitHub проекта.

Question 6

Чем RadixAttention отличается от обычного KV-cache?

Accepted Answer

Обычный KV-cache работает per-request: каждый запрос свой кеш, после ответа всё стирается. RadixAttention хранит KV-cache в общем radix-дереве с LRU-эвикцией: одинаковые префиксы (системный промпт, история чата, RAG-документы) переиспользуются между запросами. На multi-turn нагрузке сервис обрабатывает в 2–3× больше токенов при том же железе.

Question 7

Как настроить structured JSON output?

Accepted Answer

SGLang интегрирован с xgrammar. В OpenAI-API запросе передайте response_format с type: 'json_schema' и схемой. Модель гарантированно вернёт валидный JSON. Также поддерживаются regex и EBNF-грамматики через regex и ebnf поля. Constrained decoding ускоряет генерацию в 1.5–2× — token-маски считаются параллельно.

Question 8

Можно с юрлица, с закрывающими документами?

Accepted Answer

Да. Работаем с ООО/ИП по договору, оплата по счёту, НДС, ЭДО через Диадок/СБИС. В блоке «Тестовый период для бизнеса» — оператор и ID для ЭДО. Бесплатный тест от 24 часов до 7 дней под нагрузочное тестирование SGLang перед production-деплоем.

Question 9

Посекундная оплата — как это работает?

Accepted Answer

Платите за каждую секунду работы сервера. Остановили сервер — счётчик замер, диск сохраняется отдельно (~2 ₽/час за 256 ГБ). Кеш HuggingFace и venv с SGLang переживают рестарты — подняли заново и сразу серверу можно грузить веса с локального диска без повторного скачивания.

Question 10

Данные моих запросов не утекут наружу?

Accepted Answer

Нет. Мы запускаем open-weight веса локально на серверах в РФ (Самарская область). SGLang работает исключительно на вашем GPU — никаких внешних API, телеметрии и логирования промптов в облако. Если нужен полный изолированный контур — поддержка настроит VPC-подключение и приватную сеть.

Question 11

SGLang vs vLLM — что выбрать?

Accepted Answer

SGLang — если у вас multi-turn чаты, агенты со structured output, RAG с общими документами. RadixAttention даёт +29% throughput и -5–8% TTFT. vLLM — если нужна более широкая экосистема (TPU, Trainium, Gaudi) или encoder-decoder модели. На single-turn unique prompts разница малозаметна. Под NVIDIA-only стек SGLang выигрывает почти всегда.

Question 12

Поддерживается ли FP8 и квантизация?

Accepted Answer

Да. FP4 — на Blackwell (B200, GB200/GB300). FP8 — на Hopper (H100, H200) и Ada (RTX 4090). AWQ, GPTQ, INT4 — на Ampere и выше. Квантизация снижает VRAM в 2–4× при потере 1–3% качества. Для 70B моделей AWQ позволяет инференс на одной A100 80 ГБ вместо двух.

Аренда GPU для SGLang
запуск за 5 минут,
от 168 ₽/час

Популярные задачи наших клиентов

Multi-turn чат-ассистент

Structured output для агентов

RAG с длинным контекстом

Как арендовать сервер с Tesla A100

Соберите сервер

Создайте аккаунт

Пополните баланс

Запустите сервер

Платите только за время

Скидки за долгий срок аренды

Смена конфига на лету

Что умеет SGLang

RadixAttention — prefix cache

Structured output — JSON, regex, EBNF

Long context до 1M токенов

FP4 / FP8 / AWQ / GPTQ / INT4

Speculative decoding

TP / DP / PP / EP параллелизм

Multi-LoRA batching

OpenAI-совместимый API

Запустите одной командой

Выберите конфигурацию сервера

Тестовый период
для бизнеса

Почему арендуют у нас

Серверы работают , мы следим

Платите только за вычисления

Поддержка, а не тикет-система

Вопросы и ответы

SGLang на вашем GPU
От 168 ₽/час, посекундная оплата.

Аренда GPU для SGLang запуск за 5 минут, от 168 ₽/час