DeepL AI Labs

Перевод речи в режиме реального времени — это не просто перевод с использованием новой формы ввода или вывода. Это принципиально новая, иная и захватывающая задача для исследований в области ИИ. Его цель — обеспечить совершенно иной пользовательский опыт, который меняет приоритеты перевода, вводит новые ограничения и требует от модели ИИ новых форм оценки и принятия решений. 

Именно эту задачу ставят перед собой руководитель отдела исследований Саша Бринкер и научный сотрудник Кристина Гайслер в составе нашей команды по работе с голосовыми данными. Они входят в группу, которая совершенствует высококачественную модель ИИ DeepL для перевода текста, чтобы установить новый стандарт в области перевода речи в режиме реального времени. Сейчас они развивают этот ранний успех, создавая новые модели и применяя методы обучения, которые открывают совершенно новые возможности для многоязычного перевода речи в режиме реального времени.

Опираясь на высококачественные модели перевода текста

Мы начали с хорошей отправной точки: качества и контекстуального понимания существующей модели перевода текста DeepL. Команда по работе с речью смогла добиться важных первых успехов, внедрив эту модель и скорректировав стратегию вывода для увеличения скорости перевода. Затем они разработали специализированные модели для речи, способные определять оптимальный момент для вывода переводов, используя накопленные знания DeepL о взаимосвязях между языками и применяя новые уровни обучения. 

Цель здесь заключается в том, чтобы найти правильный баланс между задержкой и скоростью перевода (что имеет решающее значение для способности пользователей следить за разговором и участвовать в нём по мере его развития), с одной стороны, и точностью и стабильностью — с другой. Освоение этого баланса означает, что DeepL не нужно дожидаться окончания предложения, чтобы перевести его. В то же время это сводит к минимуму «мерцание», возникающее, когда модели вынуждены исправлять уже переведённые субтитры. Все это существенно влияет на пользовательский опыт.

Отказ от этапа распознавания речи

Адаптация и совершенствование нашей модели перевода текста позволили нам добиться значительного прогресса. Настолько, что в настоящее время Slator признает DeepL безусловным лидером как по качеству, так и по стабильности голосового перевода в режиме реального времени. Однако отказ от необходимости транскрибировать текст перед его переводом может помочь нам продвинуться ещё дальше и быстрее. В настоящее время наша команда разрабатывает модели, способные генерировать переведённую речь непосредственно на основе аудиосигнала, минуя промежуточный этап преобразования в текст.

Мы сможем добиться ещё больших успехов, предоставив нашей модели больше контекста о переводимых разговорах: о чём идёт речь, кто об этом говорит, а также какие конкретные фразы и терминология, скорее всего, будут использоваться. Это во многом повторяет интенсивную работу по обучению, которую выполняют переводчики высшего уровня перед крупными мероприятиями или встречами. Так же, как и в их случае, это позволяет нашим моделям переводить то, что человек собирается сказать, с того самого момента, когда он начинает формировать слово.

Открытие новых горизонтов для голосового перевода

Эти новые модели прямого преобразования речи в речь устраняют некоторые из наиболее значимых ограничений, с которыми в настоящее время сталкивается голосовой перевод. Тем самым они открывают ряд весьма интересных новых возможностей.

Избавившись от необходимости перевода в текст и обратно, мы можем сэкономить целые секунды при передаче устного перевода. В контексте слежения за речью в режиме реального времени это очень значительное ускорение, которое окажет большое влияние на пользовательский опыт и впечатления аудитории.

И это ещё не всё. Работа непосредственно с аудиовходом позволяет обучать модель распознаванию акцентов, диалектов и нюансов, заложенных в манере речи людей. Дополнительное время на вывод результатов и более насыщенные аудиоданные позволяют нам создавать устные переводы, которые передают эмоции и более глубокий смысл того, что говорят люди.

Будущее голосового перевода в режиме реального времени с помощью ИИ — это не только более высокая скорость. Оно также станет более глубоко человеческим: оно будет отражать больше многочисленных уровней, на которых люди общаются во время разговора. Это превращает DeepL из переводческого движка в голосовой слой, работающий в режиме реального времени, способный обеспечить наиболее естественную форму человеческого общения таким образом, что язык перестанет быть источником препятствий. 

Именно это делает данную область одной из самых захватывающих в рамках исследований в сфере ИИ в DeepL. 

Поделиться