Перейти к содержимому
NVIDIA NeMo · ASR · 25 языков · open-weight

Распознавание речи Parakeet
API в рублях или свой GPU,
от 31 ₽/час

ASR-модель NVIDIA NeMo: 25 европейских языков включая русский, авто-детект языка, пунктуация, таймстемпы. Дёргайте по OpenAI-совместимому API в рублях — или разверните NeMo на своей арендованной GPU.

Серверы в РФ (Самарская обл.) Оплата картой РФ, СБП, по счёту
Не нужен сервер? Та же модель в AI API — от 0,40 ₽ за минуту аудио

Популярные задачи наших клиентов

Транскрибация встреч и звонков

Расшифровка совещаний, интервью, продаж-звонков в текст с пунктуацией. Авто-детект языка для мультиязычных команд.

Субтитры для видео

Таймкоды на уровне слов → готовые SRT/VTT для YouTube, курсов, вебинаров. Batch-обработка целого канала за часы, а не дни.

Голосовые боты и IVR

Speech-to-text в пайплайне голосового ассистента: распознали реплику → LLM → ответ. Низкая задержка за счёт RTF ~0.02.

Другая задача? Напишите нам — подберём конфигурацию.

4 шага до запуска

Как арендовать сервер с Tesla A10

От регистрации до запуска — меньше 10 минут. Без звонков менеджеру и подписания договоров.

1

Соберите сервер

Выберите GPU, объем диска, операционную систему и тариф в конфигураторе.

2

Создайте аккаунт

Простая регистрация через Яндекс-ID, Т-Банк или электронную почту.

3

Пополните баланс

Картой или по счёту для юрлиц. Средства зачисляются мгновенно.

Запустите сервер

И он будет готов через пару минут. Подключайтесь по SSH, RDP или прямо в браузере.

Платите только за время

Остановите сервер в любой момент и неиспользованные деньги вернутся на баланс.

Скидки за долгий срок аренды

При аренде от 3-х месяцев вы получаете скидку от 5% до 25%.

Смена конфига на лету

Начните с CPU‑сервера, затем подключите GPU для тяжёлых задач.

Что умеет Parakeet Parakeet TDT 0.6B v3

Не просто транскрипт: язык определяется автоматически, расставляются пунктуация и заглавные буквы, на выходе — таймкоды для субтитров.

25 языков + авто-детект

Русский, английский и ещё 23 европейских языка одной моделью. Язык определяется автоматически — не нужно указывать его в запросе.

Очень быстрая (RTF ~0.02)

FastConformer + TDT-декодер: час аудио распознаётся за ~1–2 минуты на одной GPU. В десятки раз быстрее реального времени — дёшево гонять большие архивы.

Пунктуация и капитализация

На выходе — готовый читаемый текст с точками, запятыми и заглавными буквами, а не «поток слов». Меньше пост-обработки.

Таймстемпы для субтитров

Временные метки на уровне слов и сегментов — готово для SRT/VTT, поиска по записи, выравнивания с видео.

OpenAI-совместимый API

Эндпоинт POST /v1/audio/transcriptions — как у OpenAI Whisper. Существующий код на openai-sdk переключается сменой base_url.

Аудио не покидает РФ

Модель крутится локально на GPU в МЦОД ИО (Самарская обл.). Подходит, если в записях есть персональные данные и требования 152-ФЗ.

3 способа запуска

Поднимите ASR на своём GPU

Если нужен полный контроль и batch-обработка — разверните NeMo с Parakeet на арендованной A10. Или используйте готовый AI API ниже — без сервера.

Самый быстрый способ — дёрнуть готовый эндпоинт. Ключ выдаётся в личном кабинете intelion.cloud, оплата по минутам аудио в рублях. Совместимо с openai-python.

# curl — multipart с файлом
curl -s https://rus.aiapi.intelion.cloud/v1/audio/transcriptions \
  -H "Authorization: Bearer $INTELION_API_KEY" \
  -F model=parakeet-tdt-0.6b-v3 \
  -F file=@meeting.mp3

# Python (openai sdk)
from openai import OpenAI
client = OpenAI(
    base_url='https://rus.aiapi.intelion.cloud/v1',
    api_key='$INTELION_API_KEY',
)
with open('meeting.mp3', 'rb') as f:
    r = client.audio.transcriptions.create(
        model='parakeet-tdt-0.6b-v3', file=f)
print(r.text)
Запустить распознавание

~31 ₽/час · посекундная оплата

Без своего сервера

Parakeet TDT 0.6B v3 через AI API

Не хотите администрировать GPU-сервер? Та же модель доступна по запросу через наш OpenAI-совместимый AI API в регионе РФ: платите только за использование, в рублях, данные не покидают РФ.

Оплата по факту использования
0,40 ₽за минуту аудио
вкл. НДС · ≈ 24 ₽ за час аудио
  • Серверы в РФ (Самарская обл.) — данные не уходят за границу
  • OpenAI-совместимый эндпоинт — работает с существующими SDK
  • Оплата картой РФ, СБП или по счёту для юрлиц
Открыть AI API
POSThttps://rus.aiapi.intelion.cloud/v1/audio/transcriptions
curl -s https://rus.aiapi.intelion.cloud/v1/audio/transcriptions \
  -H "Authorization: Bearer $INTELION_API_KEY" \
  -F model=parakeet-tdt-0.6b-v3 \
  -F file=@meeting.mp3
# → {"text": "Привет, это расшифровка встречи..."}
Parakeet можно подключить к ИИ-агенту (Claude Code, Cursor и др.) как инструмент через наш MCP-сервер — инструкция появится на rus.aiapi.intelion.cloud.

Parakeet или Whisper?

Whisper покрывает больше языков, Parakeet — заметно быстрее при сопоставимом качестве на русском и английском.

МодельСкорость (RTF)ЯзыкиКачество русЛицензия
Parakeet TDT 0.6B v3 наша~0.02 (очень быстро)25 EU вкл. русскийВысокоеOpen-weight
Whisper large-v3~0.1–0.399 языковВысокоеMIT
Whisper medium~0.05–0.1599 языковСреднееMIT
faster-whisper large-v3~0.03–0.0899 языковВысокоеMIT

Источники: Parakeet TDT 0.6B v3 на Hugging Face · NVIDIA NeMo — фреймворк ASR/TTS · HF Open ASR Leaderboard. RTF (real-time factor) зависит от GPU и настроек; цифры — ориентир.

Выберите конфигурацию сервера

Укажите параметры и запустите сервер за несколько минут

Тестовый запуск

Тестовый период
для бизнеса

Мы уверены в железе — поэтому даём потестировать до покупки.
Подключитесь по ЭДО, напишите нам, и мы обсудим условия тестового запуска.

Как получить:

  • 1 Подключитесь к нам по ЭДО
  • 2 Напишите нам
  • 3 Получите сервер с Tesla A10

Данные для подключения по ЭДО:

Оператор: АО «Калуга Астрал»

ID: 2AEE383BDF8-E70C-4F74-9E7E-995E8AC21999

Написать нам

Почему арендуют у нас

Серверы работают , мы следим

Мониторинг оборудования 24/7. Неисправный компонент заменим по гарантии без доплат.

Платите только за вычисления

Посекундная тарификация. Выключили сервер — счётчик остановился, данные на диске сохраняются. Скидки до 25% при оплате за 12 месяцев.

Поддержка, а не тикет-система

Сразу инженер, который разбирается в CUDA, PyTorch и настройке GPU-серверов. Ответ — до 15 минут.

Вопросы и ответы

Parakeet — это модель распознавания речи (ASR, speech-to-text) от NVIDIA на базе фреймворка NeMo. Главное отличие от Whisper — скорость: архитектура FastConformer + TDT даёт RTF ~0.02, то есть час аудио распознаётся за 1–2 минуты на GPU. Whisper покрывает больше языков (99), Parakeet — 25 европейских, но качество на русском и английском сопоставимо, а по цене за час обработки Parakeet выгоднее.

25 европейских языков, включая русский, английский, немецкий, французский, испанский, итальянский, польский, украинский и другие. Язык определяется автоматически — указывать его в запросе не нужно, что удобно для мультиязычных записей.

Отправьте аудиофайл POST-запросом на https://rus.aiapi.intelion.cloud/v1/audio/transcriptions с полями model=parakeet-tdt-0.6b-v3 и file=@запись.mp3. Эндпоинт OpenAI-совместимый — подойдёт openai-python со сменой base_url. Ключ берётся в личном кабинете, оплата — по минутам аудио в рублях.

Через AI API — 0,40 ₽ за минуту аудио (вкл. НДС), то есть ~24 ₽ за час записи; платите только за фактически обработанное аудио. Если разворачиваете NeMo сами — платите за аренду GPU (A10 24 ГБ) посекундно; это выгоднее на больших постоянных объёмах. Актуальная цена API — в секции «Через AI API» выше и на странице тарифов.

Модель компактная (0.6B параметров) и комфортно работает на A10 24 ГБ — именно на ней крутится наш прод-бэкенд. Подойдёт любая карта от 12–16 ГБ VRAM. Для большого параллельного потока берите карту мощнее или несколько GPU.

Да. На выходе — текст с пунктуацией и заглавными буквами (не «поток слов»), а также таймкоды на уровне слов и сегментов. Из них легко собрать субтитры SRT/VTT или выровнять текст с видео.

Распространённые контейнеры — WAV, MP3, FLAC, OGG, M4A. Внутри запись приводится к 16 кГц моно. Для длинных файлов модель сама режет аудио на окна и собирает результат, так что многочасовые записи обрабатываются без ручной нарезки.

Нет. Модель работает локально на GPU в МЦОД ИО (Самарская обл.), аудио и транскрипты не покидают РФ и не уходят сторонним облакам. Это важно, если в записях есть персональные данные граждан РФ и требования 152-ФЗ к локализации. При self-host вы полностью контролируете контур.

Да. Модель можно дать ИИ-агенту (Claude Code, Cursor и др.) как инструмент через наш MCP-сервер — агент сможет сам расшифровывать аудио в ходе диалога. Инструкция по подключению появится на rus.aiapi.intelion.cloud.

Да. Работаем с ООО/ИП по договору, оплата по счёту, НДС, ЭДО через Диадок/СБИС — и для AI API, и для аренды GPU. Реквизиты и ID для ЭДО подскажет поддержка.

Распознавание речи Parakeet
От 31 ₽/час, посекундная оплата.

Через AI API в рублях или self-host на GPU. Серверы в РФ, поддержка 24/7.