Транскрибация встреч и звонков
Расшифровка совещаний, интервью, продаж-звонков в текст с пунктуацией. Авто-детект языка для мультиязычных команд.
Расшифровка совещаний, интервью, продаж-звонков в текст с пунктуацией. Авто-детект языка для мультиязычных команд.
Таймкоды на уровне слов → готовые SRT/VTT для YouTube, курсов, вебинаров. Batch-обработка целого канала за часы, а не дни.
Speech-to-text в пайплайне голосового ассистента: распознали реплику → LLM → ответ. Низкая задержка за счёт RTF ~0.02.
Другая задача? Напишите нам — подберём конфигурацию.
Не просто транскрипт: язык определяется автоматически, расставляются пунктуация и заглавные буквы, на выходе — таймкоды для субтитров.
Русский, английский и ещё 23 европейских языка одной моделью. Язык определяется автоматически — не нужно указывать его в запросе.
FastConformer + TDT-декодер: час аудио распознаётся за ~1–2 минуты на одной GPU. В десятки раз быстрее реального времени — дёшево гонять большие архивы.
На выходе — готовый читаемый текст с точками, запятыми и заглавными буквами, а не «поток слов». Меньше пост-обработки.
Временные метки на уровне слов и сегментов — готово для SRT/VTT, поиска по записи, выравнивания с видео.
Эндпоинт POST /v1/audio/transcriptions — как у OpenAI Whisper. Существующий код на openai-sdk переключается сменой base_url.
Модель крутится локально на GPU в МЦОД ИО (Самарская обл.). Подходит, если в записях есть персональные данные и требования 152-ФЗ.
Не хотите администрировать GPU-сервер? Та же модель доступна по запросу через наш OpenAI-совместимый AI API в регионе РФ: платите только за использование, в рублях, данные не покидают РФ.
https://rus.aiapi.intelion.cloud/v1/audio/transcriptionscurl -s https://rus.aiapi.intelion.cloud/v1/audio/transcriptions \
-H "Authorization: Bearer $INTELION_API_KEY" \
-F model=parakeet-tdt-0.6b-v3 \
-F file=@meeting.mp3
# → {"text": "Привет, это расшифровка встречи..."}Whisper покрывает больше языков, Parakeet — заметно быстрее при сопоставимом качестве на русском и английском.
| Модель | Скорость (RTF) | Языки | Качество рус | Лицензия |
|---|---|---|---|---|
| Parakeet TDT 0.6B v3 наша | ~0.02 (очень быстро) | 25 EU вкл. русский | Высокое | Open-weight |
| Whisper large-v3 | ~0.1–0.3 | 99 языков | Высокое | MIT |
| Whisper medium | ~0.05–0.15 | 99 языков | Среднее | MIT |
| faster-whisper large-v3 | ~0.03–0.08 | 99 языков | Высокое | MIT |
Источники: Parakeet TDT 0.6B v3 на Hugging Face · NVIDIA NeMo — фреймворк ASR/TTS · HF Open ASR Leaderboard. RTF (real-time factor) зависит от GPU и настроек; цифры — ориентир.
Укажите параметры и запустите сервер за несколько минут
Мы уверены в железе — поэтому даём потестировать до покупки.
Подключитесь по ЭДО, напишите нам, и мы обсудим условия тестового запуска.
Как получить:
Данные для подключения по ЭДО:
Оператор: АО «Калуга Астрал»
ID: 2AEE383BDF8-E70C-4F74-9E7E-995E8AC21999
Мониторинг оборудования 24/7. Неисправный компонент заменим по гарантии без доплат.
Посекундная тарификация. Выключили сервер — счётчик остановился, данные на диске сохраняются. Скидки до 25% при оплате за 12 месяцев.
Сразу инженер, который разбирается в CUDA, PyTorch и настройке GPU-серверов. Ответ — до 15 минут.
Через AI API в рублях или self-host на GPU. Серверы в РФ, поддержка 24/7.