AI API — облачный inference LLM по OpenAI-совместимому API

Name: AI API — Inference-платформа Интелион Облако
Brand: Интелион Облако

Что это такое

Inference API, а не ещё один сервер

AI API — это Inference-платформа Интелион Облако: вы обращаетесь к готовым моделям по HTTP и платите за токены, без аренды и настройки GPU. Endpoint OpenAI-совместимый, поэтому существующий код на OpenAI SDK, LangChain или curl переключается одной строкой.

Стриминг (SSE), temperature, max_tokens, tool calling
Единый ключ и баланс с личным кабинетом — отдельный кошелёк не нужен
Отчёт по токенам в каждом ответе

curl https://int.aiapi.intelion.cloud/v1/chat/completions \
  -H "Authorization: Bearer $INTELION_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3.6-35b-a3b",
    "messages": [{"role": "user", "content": "Привет!"}]
  }'

base_url зависит от региона: International — int.aiapi.intelion.cloud, Россия — rus.aiapi.intelion.cloud. Ключ действует в своём регионе.

Почему мы

Условия, которых нет у агрегаторов

Не «ещё 300 моделей в списке», а понятный и легальный доступ к лучшим из них

Переходите с OpenRouter? Аналог OpenRouter с оплатой в рублях →

OpenAI-совместимость

Тот же формат запросов и ответов. Миграция с OpenAI SDK, LangChain, LlamaIndex — замена base_url и ключа.

Оплата в рублях, с документами

Тарифы в рублях, НДС 22%. Для юрлиц — закрывающие документы (УПД). Без зарубежных карт и VPN.

Claude — легально

Вся линейка Anthropic: Claude Sonnet и Opus 4.6 с окном 1M токенов, Haiku — по прямому корпоративному договору, в рублях и с документами. Не серые ключи.

Локальный контур в РФ

Есть модель на GPU в дата-центре на территории России — данные не покидают страну. Важно для 152-ФЗ.

Единый баланс с ЛК

Тот же кошелёк, что и для GPU-серверов. Один счёт на инфраструктуру и инференс, одна точка управления ключами.

Курированный каталог

По одному сильному кандидату на каждый класс задач: reasoning, код, зрение, флагман — без «длинного хвоста» бесполезных моделей.

Каталог

Доступные модели

Цены за 1 000 000 токенов. Тарифы публикуются без НДС; НДС 22% начисляется сверх.

Модель	Контекст	Input, ₽ / 1M	Output, ₽ / 1M
Parakeet TDT 0.6B v3 audio	—	0.00	0.00
Whisper large-v3 audio	—	0.00	0.00
Claude Sonnet 4.5 code	1M ctx	240.98	1204.92
Claude Sonnet 4.6 code	1M ctx	240.98	1204.92
Devstral Small 24B code	65K ctx	8.20	24.59
Mistral Devstral 2 123B code	262K ctx	31.97	160.66
Qwen3 Coder 30B code	262K ctx	16.39	63.11
Qwen3 Coder 30B-A3B code	8K ctx	8.20	24.59
Claude Haiku 4.5 general	200K ctx	80.33	401.64
NVIDIA Nemotron Super 120B general	131K ctx	12.30	52.46
Qwen3 30B-A3B general	8K ctx	5.74	17.21
Qwen3 32B general	131K ctx	16.39	63.11
Qwen3.6 35B-A3B general	262K ctx	5.74	17.21
T-pro 2.1 general	4K ctx	8.20	24.59
FLUX.1-schnell image	—	0.00	0.00
Claude Opus 4.5 reasoning	200K ctx	401.64	2009.02
Claude Opus 4.6 reasoning	1M ctx	401.64	2009.02
GPT-OSS 120B reasoning	131K ctx	12.30	48.36
GPT-OSS 20B reasoning	131K ctx	7.38	31.97
MiniMax M2.5 reasoning	200K ctx	23.77	96.72
Qwen3 235B A22B reasoning	262K ctx	22.95	93.44

Полный прайс и условия — на странице Цены.

Быстрый старт

Три шага до первого ответа

Получите ключ

Создайте API-ключ в личном кабинете Интелион Облако

Укажите base_url

Подставьте наш endpoint и ключ в любой OpenAI-совместимый клиент

Отправляйте запросы

Платите за токены с единого баланса — без минималок и абонплаты

Получить API-ключ

Claude Code

Claude Code — на всю команду, за счёт юрлица

У нас не только OpenAI-совместимый, но и Anthropic-совместимый API — тот самый, на котором работает Claude Code. Задаёте две переменные окружения — и Claude Code ходит через «Интелион».

Раздайте Claude Code всей команде с одного баланса
Оплата в рублях, закрывающие документы (УПД) для юрлица
Без зарубежных карт и личных подписок у каждого разработчика

Подробная инструкция и ответы на вопросы — Claude Code в России.

export ANTHROPIC_BASE_URL=https://int.aiapi.intelion.cloud/anthropic
export ANTHROPIC_AUTH_TOKEN=ic-ВАШ_КЛЮЧ
export ANTHROPIC_MODEL=claude-sonnet-4-6

claude  # теперь Claude Code работает через «Интелион»

Fusion

Fusion — ансамбль моделей вместо одной

Подход, который в 2026 году предложил OpenRouter: один запрос уходит сразу на несколько моделей параллельно, а затем модель-судья не просто склеивает ответы, а разбирает их — согласие, противоречия, уникальные находки и слепые зоны — и синтезирует один взвешенный ответ. В исследованиях это называют mixture of agents.

69% против 65% у лучшей одиночной модели

Результат ансамбля из двух моделей на бенчмарке глубокого ресёрча DRACO — по данным OpenRouter.

Отзывы

Что говорят те, кто протестировал подход

“

Сети из нейросетей теперь быстрее, дешевле и способнее любой frontier-системы. Игра окончена.

Эндрю Траскоснователь OpenMined, AI-исследователь

“

Ансамбль из бюджетных моделей через Fusion может сравняться или обойти отдельные frontier-модели на сложных исследовательских задачах — часто за долю их цены.

Data Science Dojoобразовательная платформа по Data Science

“

Ансамбль — это больше вызовов, чем один промпт, зато выходишь на near-frontier качество на более дешёвых моделях вместо frontier-цен.

Джулиан Голдиэксперт по AI-автоматизации

Fusion в Интелион Облако

Тот же ансамбль — но на локальных моделях и в одну строку

Мы сделали Fusion, совместимую с OpenRouter. Ключевое отличие: судья и аналитики — только локальные модели в РФ, данные не покидают страну.

Судья и 3 модели-аналитика работают параллельно
Вся конфигурация — прямо в параметре model, без extra_body/plugins
Работает в любом OpenAI-совместимом клиенте, где можно задать только модель

Классическая форма через plugins (как в OpenRouter) тоже поддерживается.

curl https://aiapi.intelion.cloud/v1/chat/completions \
  -H "Authorization: Bearer ic-ВАШ_КЛЮЧ" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "intelion.cloud/fusion:qwen3.6-35b-a3b:devstral-small,qwen3-30b-a3b,qwen3-coder-30b-a3b",
    "messages": [{"role":"user","content":"Объясни квантовую запутанность"}],
    "stream": true
  }'

# формат: intelion.cloud/fusion:<судья>:<аналитики через запятую>

Сценарии

Для чего используют

Чат-боты и ассистенты

Поддержка, внутренние ассистенты, RAG поверх своих данных.

Код и агенты

Генерация и ревью кода, agentic-сценарии в IDE на Qwen3 Coder и Devstral.

Обработка документов

Распознавание скриншотов, схем и документов мультимодальной Qwen3-VL.

Массовая обработка

Классификация, экстракция и суммаризация на дешёвых моделях вроде Nemotron.

Вопросы и ответы

Часто спрашивают

Чем AI API отличается от прямого OpenAI?

Это OpenAI-совместимый Inference API: достаточно поменять base_url и ключ. Дальше — оплата в рублях с закрывающими документами, без зарубежных карт и VPN, и модель, работающая локально в РФ.

Какие модели доступны?

Курированный каталог топовых моделей: Claude (Sonnet и Opus 4.6), DeepSeek, Qwen3, Kimi, GLM, GPT-OSS, Nemotron и другие. Актуальный список с ценами — в разделе «Доступные модели» и в личном кабинете.

Как происходит оплата и есть ли документы?

Оплата с единого баланса личного кабинета — того же, с которого арендуют GPU-серверы. Тарифы в рублях, НДС 22%. Для юрлиц — закрывающие документы (УПД).

Уходят ли мои данные за границу?

Есть локальный регион: как минимум одна модель работает на железе в дата-центре на территории РФ, и данные по ней не покидают страну.

Совместимо ли с OpenAI SDK и LangChain?

Да. Endpoint реализует OpenAI-совместимый /v1/chat/completions со стримингом и tool calling. Подойдёт любой клиент, умеющий менять base_url: OpenAI SDK, LangChain, LlamaIndex, curl.

AI API: запускайте
LLM через один запрос

Inference API, а не ещё один сервер

Условия, которых нет у агрегаторов

Доступные модели

Три шага до первого ответа

Claude Code — на всю команду, за счёт юрлица

Fusion — ансамбль моделей вместо одной

Что говорят те, кто протестировал подход

Тот же ансамбль — но на локальных моделях и в одну строку

Для чего используют

Часто спрашивают

Начните с бесплатного лимита

Куда вам удобнее написать?

AI API: запускайте LLM через один запрос

Inference API, а не ещё один сервер

Условия, которых нет у агрегаторов

Доступные модели

Три шага до первого ответа

Claude Code — на всю команду, за счёт юрлица

Fusion — ансамбль моделей вместо одной

Что говорят те, кто протестировал подход

Тот же ансамбль — но на локальных моделях и в одну строку

Для чего используют

Часто спрашивают

Начните с бесплатного лимита

AI API: запускайте
LLM через один запрос