Автоматизированная генерация субтитров

Автоматическая генерация и перевод субтитров для фильмов и сериалов, обеспечивая их доступность для широкой аудитории.

Проблема, которую мы решаем

Ручное создание субтитров — крайне трудоемкий и дорогостоящий процесс локализации медиаконтента под разные языковые рынки.

Мы разработали систему автоматической генерации субтитров для Jackie StartUp. Она автоматически производит детекцию речи, её перевод на целевой язык (английский) и компиляцию готовых текстовых файлов.

Система превосходно справляется как со старыми фильмами с невнятным звуком, так и с современными экшн-картинами с обилием спецэффектов.

Как это работает

ML-пайплайн объединяет несколько математических фильтров и глубоких моделей распознавания речи:

Модели Whisper (v2, v3)

Диапазон моделей от base до large используется в зависимости от сложности дорожки и задачи. Whisper обеспечивает непревзойденное качество расшифровки и перевода даже на 99 языках за счет активного применения GPU-ускорения.

VAD фильтры (Voice Activity)

Voice Activity Detection используется для точной детекции участков с речью, что позволяет значительно повысить скорость работы основной Whisper-модели и исключить пустые интервалы.

Математическая предобработка аудио

Дополнительная обработка звука средствами ffmpeg производит нормализацию громкости по строгому стандарту EBU R128, шумоподавление и выделение именно речевого частотного коридора.

Модуль перевода

Мгновенный перевод распознанных фраз на английский язык с сохранением таймкодов субтитра для полной синхронности.

Технологии

Whisper (v2, v3)VAD фильтрыffmpegGPU-ускорение

Преимущества

Гибкость обработки

Адаптируется под разное качество исходных аудиоматериалов благодаря многоступенчатым цепочкам пре-фильтров звука.

Точность распознавания

Whisper v3 демонстрирует высокую надежность распознавания интонаций и слов даже при невнятном произношении или акцентах.

Глубокая автоматизация

В разы снижает временные издержки переводчиков и редакторов на подготовку таймлайнов субтитров.

Мультиязычный масштаб

Поддерживает детектирование и автоматическую транслитерацию на 99 языках миров.

Основные проблемы:

Параметры VAD фильтров: Нестабильная работа детектора на низкокачественном звуке приводила к пропускам тихих реплик в сложных сценах.

Сложность настройки: Индивидуальный ручной подбор параметров порогов VAD для разных типов фильмов требовал значительных трудозатрат.

Пути решения:

Адаптивные VAD фильтры: Внедрение динамического изменения настроек распознавателя на основе анализа спектра входного шума.

Интеллектуальная предобработка: Реализация расширенных математических моделей очистки звука.

QA Тестирование: Создание автоматизированного тестового набора данных (бенчмарка) с примерами искаженных голосов для регулярных испытаний алгоритма.

Следующий кейс

Умный чат-бот

Открыть

Готовы обсудить?

Расскажите про ваш проект

Написать нам