Inference API для больших языковых моделей — Claude, DeepSeek, Qwen и другие. Поменяйте base_url и ключ, платите в рублях с единого баланса личного кабинета.
Бесплатный лимит на старте — попробуйте без привязки карты
Что это такое
AI API — это Inference-платформа Интелион Облако: вы обращаетесь к готовым моделям по HTTP и платите за токены, без аренды и настройки GPU. Endpoint OpenAI-совместимый, поэтому существующий код на OpenAI SDK, LangChain или curl переключается одной строкой.
temperature, max_tokens, tool callingcurl https://int.aiapi.intelion.cloud/v1/chat/completions \
-H "Authorization: Bearer $INTELION_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "deepseek-v3-2",
"messages": [{"role": "user", "content": "Привет!"}]
}'base_url зависит от региона: International — int.aiapi.intelion.cloud, Россия — rus.aiapi.intelion.cloud. Ключ действует в своём регионе.
Почему мы
Не «ещё 300 моделей в списке», а понятный и легальный доступ к лучшим из них
Переходите с OpenRouter? Аналог OpenRouter с оплатой в рублях →
Тот же формат запросов и ответов. Миграция с OpenAI SDK, LangChain, LlamaIndex — замена base_url и ключа.
Тарифы в рублях, НДС 22%. Для юрлиц — закрывающие документы (УПД). Без зарубежных карт и VPN.
Вся линейка Anthropic: Claude Sonnet и Opus 4.6 с окном 1M токенов, Haiku — по прямому корпоративному договору, в рублях и с документами. Не серые ключи.
Есть модель на GPU в дата-центре на территории России — данные не покидают страну. Важно для 152-ФЗ.
Тот же кошелёк, что и для GPU-серверов. Один счёт на инфраструктуру и инференс, одна точка управления ключами.
По одному сильному кандидату на каждый класс задач: reasoning, код, зрение, флагман — без «длинного хвоста» бесполезных моделей.
Каталог
Цены за 1 000 000 токенов. Тарифы публикуются без НДС; НДС 22% начисляется сверх.
| Модель | Контекст | Input, ₽ / 1M | Output, ₽ / 1M |
|---|---|---|---|
| Claude Sonnet 4.5 code | 1M ctx | 225.30 | 1126.49 |
| Claude Sonnet 4.6 code | 1M ctx | 225.30 | 1126.49 |
| Mistral Devstral 2 123B code | 262K ctx | 30.04 | 150.20 |
| Qwen3 Coder 30B code | 262K ctx | 16.39 | 63.11 |
| Qwen3 Coder 480B code | 262K ctx | 16.53 | 135.18 |
| Claude Haiku 4.5 general | 200K ctx | 75.10 | 375.50 |
| GLM 4.7 general | 131K ctx | 45.06 | 165.22 |
| Llama 3.3 70B Instruct general | 131K ctx | 57.49 | 57.49 |
| NVIDIA Nemotron Super 120B general | 131K ctx | 11.27 | 48.82 |
| Qwen3 32B general | 131K ctx | 16.39 | 63.11 |
| Claude Opus 4.5 reasoning | 200K ctx | 375.50 | 1877.48 |
| Claude Opus 4.6 reasoning | 1M ctx | 375.50 | 1877.48 |
| DeepSeek R1 reasoning | 131K ctx | 107.78 | 431.12 |
| DeepSeek V3.2 reasoning | 163K ctx | 46.57 | 138.94 |
| GPT-OSS 120B reasoning | 131K ctx | 11.27 | 45.06 |
| GPT-OSS 20B reasoning | 131K ctx | 7.38 | 31.97 |
| Kimi K2 Thinking reasoning | 262K ctx | 45.06 | 187.75 |
| MiniMax M2.5 reasoning | 200K ctx | 22.53 | 90.12 |
| Qwen3 235B A22B reasoning | 262K ctx | 22.95 | 93.44 |
| Qwen3-VL 235B vision | 262K ctx | 39.81 | 199.77 |
| Parakeet TDT 0.6B v3 (RU, распознавание речи) asr | — | 0.00 | 0.00 |
| Devstral Small 24B (RU, DevOps-агент) code | 65K ctx | 8.20 | 24.59 |
| T-pro 2.1 (RU, локально) general | 32K ctx | 8.20 | 24.59 |
| FLUX.1-schnell (RU, генерация изображений) image | — | 0.00 | 0.00 |
Полный прайс и условия — на странице Цены.
Быстрый старт
Создайте API-ключ в личном кабинете Интелион Облако
Подставьте наш endpoint и ключ в любой OpenAI-совместимый клиент
Платите за токены с единого баланса — без минималок и абонплаты
Claude Code
У нас не только OpenAI-совместимый, но и Anthropic-совместимый API — тот самый, на котором работает Claude Code. Задаёте две переменные окружения — и Claude Code ходит через «Интелион».
Подробная инструкция и ответы на вопросы — Claude Code в России.
export ANTHROPIC_BASE_URL=https://int.aiapi.intelion.cloud/anthropic
export ANTHROPIC_AUTH_TOKEN=ic-ВАШ_КЛЮЧ
export ANTHROPIC_MODEL=claude-sonnet-4-6
claude # теперь Claude Code работает через «Интелион»Сценарии
Поддержка, внутренние ассистенты, RAG поверх своих данных.
Генерация и ревью кода, agentic-сценарии в IDE на Qwen3 Coder и Devstral.
Распознавание скриншотов, схем и документов мультимодальной Qwen3-VL.
Классификация, экстракция и суммаризация на дешёвых моделях вроде Nemotron.
Это OpenAI-совместимый Inference API: достаточно поменять base_url и ключ. Дальше — оплата в рублях с закрывающими документами, без зарубежных карт и VPN, и модель, работающая локально в РФ.
Курированный каталог топовых моделей: Claude (Sonnet и Opus 4.6), DeepSeek, Qwen3, Kimi, GLM, GPT-OSS, Nemotron и другие. Актуальный список с ценами — в разделе «Доступные модели» и в личном кабинете.
Оплата с единого баланса личного кабинета — того же, с которого арендуют GPU-серверы. Тарифы в рублях, НДС 22%. Для юрлиц — закрывающие документы (УПД).
Есть локальный регион: как минимум одна модель работает на железе в дата-центре на территории РФ, и данные по ней не покидают страну.
Да. Endpoint реализует OpenAI-совместимый /v1/chat/completions со стримингом и tool calling. Подойдёт любой клиент, умеющий менять base_url: OpenAI SDK, LangChain, LlamaIndex, curl.
API-ключ, единый рублёвый баланс и закрывающие документы — всё в личном кабинете.
Создать аккаунт