DeepL AI Labs
Перевод речи в режиме реального времени — это не просто перевод с использованием новой формы ввода или вывода. Это принципиально новая, иная и захватывающая задача для исследований в области ИИ. Его цель — обеспечить совершенно иной пользовательский опыт, который меняет приоритеты перевода, вводит новые ограничения и требует от модели ИИ новых форм оценки и принятия решений.
Именно эту задачу ставят перед собой руководитель отдела исследований Саша Бринкер и научный сотрудник Кристина Гайслер в составе нашей команды по работе с голосовыми данными. Они входят в группу, которая совершенствует высококачественную модель ИИ DeepL для перевода текста, чтобы установить новый стандарт в области перевода речи в режиме реального времени. Сейчас они развивают этот ранний успех, создавая новые модели и применяя методы обучения, которые открывают совершенно новые возможности для многоязычного перевода речи в режиме реального времени.
Мы начали с хорошей отправной точки: качества и контекстуального понимания существующей модели перевода текста DeepL. Команда по работе с речью смогла добиться важных первых успехов, внедрив эту модель и скорректировав стратегию вывода для увеличения скорости перевода. Затем они разработали специализированные модели для речи, способные определять оптимальный момент для вывода переводов, используя накопленные знания DeepL о взаимосвязях между языками и применяя новые уровни обучения.
Цель здесь заключается в том, чтобы найти правильный баланс между задержкой и скоростью перевода (что имеет решающее значение для способности пользователей следить за разговором и участвовать в нём по мере его развития), с одной стороны, и точностью и стабильностью — с другой. Освоение этого баланса означает, что DeepL не нужно дожидаться окончания предложения, чтобы перевести его. В то же время это сводит к минимуму «мерцание», возникающее, когда модели вынуждены исправлять уже переведённые субтитры. Все это существенно влияет на пользовательский опыт.
Адаптация и совершенствование нашей модели перевода текста позволили нам добиться значительного прогресса. Настолько, что в настоящее время Slator признает DeepL безусловным лидером как по качеству, так и по стабильности голосового перевода в режиме реального времени. Однако отказ от необходимости транскрибировать текст перед его переводом может помочь нам продвинуться ещё дальше и быстрее. В настоящее время наша команда разрабатывает модели, способные генерировать переведённую речь непосредственно на основе аудиосигнала, минуя промежуточный этап преобразования в текст.
Мы сможем добиться ещё больших успехов, предоставив нашей модели больше контекста о переводимых разговорах: о чём идёт речь, кто об этом говорит, а также какие конкретные фразы и терминология, скорее всего, будут использоваться. Это во многом повторяет интенсивную работу по обучению, которую выполняют переводчики высшего уровня перед крупными мероприятиями или встречами. Так же, как и в их случае, это позволяет нашим моделям переводить то, что человек собирается сказать, с того самого момента, когда он начинает формировать слово.
Эти новые модели прямого преобразования речи в речь устраняют некоторые из наиболее значимых ограничений, с которыми в настоящее время сталкивается голосовой перевод. Тем самым они открывают ряд весьма интересных новых возможностей.
Избавившись от необходимости перевода в текст и обратно, мы можем сэкономить целые секунды при передаче устного перевода. В контексте слежения за речью в режиме реального времени это очень значительное ускорение, которое окажет большое влияние на пользовательский опыт и впечатления аудитории.
И это ещё не всё. Работа непосредственно с аудиовходом позволяет обучать модель распознаванию акцентов, диалектов и нюансов, заложенных в манере речи людей. Дополнительное время на вывод результатов и более насыщенные аудиоданные позволяют нам создавать устные переводы, которые передают эмоции и более глубокий смысл того, что говорят люди.
Будущее голосового перевода в режиме реального времени с помощью ИИ — это не только более высокая скорость. Оно также станет более глубоко человеческим: оно будет отражать больше многочисленных уровней, на которых люди общаются во время разговора. Это превращает DeepL из переводческого движка в голосовой слой, работающий в режиме реального времени, способный обеспечить наиболее естественную форму человеческого общения таким образом, что язык перестанет быть источником препятствий.
Именно это делает данную область одной из самых захватывающих в рамках исследований в сфере ИИ в DeepL.