Модели Whisper (v2, v3)
Диапазон моделей от base до large используется в зависимости от сложности дорожки и задачи. Whisper обеспечивает непревзойденное качество расшифровки и перевода даже на 99 языках за счет активного применения GPU-ускорения.
Автоматическая генерация и перевод субтитров для фильмов и сериалов, обеспечивая их доступность для широкой аудитории.
Ручное создание субтитров — крайне трудоемкий и дорогостоящий процесс локализации медиаконтента под разные языковые рынки.
Мы разработали систему автоматической генерации субтитров для Jackie StartUp. Она автоматически производит детекцию речи, её перевод на целевой язык (английский) и компиляцию готовых текстовых файлов.
Система превосходно справляется как со старыми фильмами с невнятным звуком, так и с современными экшн-картинами с обилием спецэффектов.
ML-пайплайн объединяет несколько математических фильтров и глубоких моделей распознавания речи:
Диапазон моделей от base до large используется в зависимости от сложности дорожки и задачи. Whisper обеспечивает непревзойденное качество расшифровки и перевода даже на 99 языках за счет активного применения GPU-ускорения.
Voice Activity Detection используется для точной детекции участков с речью, что позволяет значительно повысить скорость работы основной Whisper-модели и исключить пустые интервалы.
Дополнительная обработка звука средствами ffmpeg производит нормализацию громкости по строгому стандарту EBU R128, шумоподавление и выделение именно речевого частотного коридора.
Мгновенный перевод распознанных фраз на английский язык с сохранением таймкодов субтитра для полной синхронности.
Адаптируется под разное качество исходных аудиоматериалов благодаря многоступенчатым цепочкам пре-фильтров звука.
Whisper v3 демонстрирует высокую надежность распознавания интонаций и слов даже при невнятном произношении или акцентах.
В разы снижает временные издержки переводчиков и редакторов на подготовку таймлайнов субтитров.
Поддерживает детектирование и автоматическую транслитерацию на 99 языках миров.
Параметры VAD фильтров: Нестабильная работа детектора на низкокачественном звуке приводила к пропускам тихих реплик в сложных сценах.
Сложность настройки: Индивидуальный ручной подбор параметров порогов VAD для разных типов фильмов требовал значительных трудозатрат.
Адаптивные VAD фильтры: Внедрение динамического изменения настроек распознавателя на основе анализа спектра входного шума.
Интеллектуальная предобработка: Реализация расширенных математических моделей очистки звука.
QA Тестирование: Создание автоматизированного тестового набора данных (бенчмарка) с примерами искаженных голосов для регулярных испытаний алгоритма.