Виды и обзор движков машинного перевода: Яндекс переводчик, Google Translate и DeepL

от автора

Многие компании или их сотрудники хоть раз использовали для своих задач онлайн-переводчики. Это быстро, удобно, но результат не всегда точный. Однако такой перевод иногда имеет неприятные последствия: его могут неправильно понять клиенты или бизнес-партнеры, что может испортить репутацию.

В прошлой публикации мы с командой делали обзор на лучшие программы локализации в 2024 году, вы можете прочитать его по этой ссылке. Сегодня же мы рассмотрим популярные движки машинного перевода (МП): Яндекс переводчик, Google Translate и DeepL. Оценим возможности каждого, сравним плюсы и минусы, для каких задач подходит тот или иной переводчик и расскажем, почему лучше не переводить важные документы онлайн. В данной статье будут упоминаться сторонние исследования и тестирования переводчиков с указанными на них ссылками. Приятного чтения! 

Оглавление

1) Технологии перевода. Как они работают? 
2) Критерии для оценки онлайн-переводчиков
3)Общая информация о переводчиках:
— Google Translate
— Яндекс.Переводчик
— DeepL
4) Таблица
5) Тестирование движков и частые ошибки
6) Выводы

1. Технологии машинного перевода. Как они работают?

С каждым годом технологии перевода развиваются всё больше, а вместе с этим и сокращается языковой барьер между людьми, говорящими на разных языках. Современные системы МП основаны на нейронных сетях и технологиях искусственного интеллекта (AI), которые позволяют улучшить качество перевода. Основная задача таких систем — не просто заменять слова на эквиваленты на другом языке, а учитывать грамматику, контекст и даже стиль текста. Но так было не всегда! Давайте разберемся, каким раньше был машинный перевод. 

В 1947 году началась история МП, когда математик Уоррен Уивер впервые предложил использовать ЭВМ для перевода. Последующие несколько лет многие ученые пытались осуществить эту идею, и в 1954 году это получилось. IBM совместно с Джорджтаунским университетом провели публичную презентацию своего эксперимента. 

В то время технологии только начинали своё развитие и существовал всего один метод — метод прямого перевода. В нём было очень много минусов и погрешностей. Но и это стало большим прорывом.

С тех пор возникли и другие подходы, помогающие переводить тексты быстро и максимально приближенно к носителю. Рассмотрим некоторые из них:

  • RBMT (аналитический). Или машинный перевод на основе правил. Одна из самых первых подобных технологий. При таком подходе собираются максимально полные лингвистические базы данных, и чем больше база, тем вернее и правильнее получается перевод. В такие базы входят словари, справочники, описания грамматик, информация о закономерности языка. Не менее важна информация и об алгоритмах перевода. Все эти данные в совокупности влияют на качество итогового варианта — переведенного текста.
    За короткое время система успевает провести морфологический, синтаксический анализы и синтез предложений. Один из главных минусов RBMT — игнорирование контекста т.к система четко следует правилам, прописанным в ней.

  • CBMT. Перевод на основе корпусов текста. Это следующая технология после RBMT, возникла в 1980-х годах. При этом методе перевода используют массив параллельных текстов (корпусов) на двух языках. В отличие от метода, описанного выше, CBMT делает упор на сбор и использование реальных переводов. Система находит соответствия в разных корпусах и на их основе переводит практически любые материалы. К минусам такой модели можно отнести качество перевода. Чем меньше корпус — тем хуже итоговый вариант из-за малого объёма данных (слишком малая выборка). Также если сами тексты в таком корпусе содержат ошибки, то система может их перенять, воспринимая за образец.

  • EBMT. Или машинный перевод на примерах. Стал применяться с 1984 года. В отличии от перевода на основе корпусов текста, о котором говорилось выше, EBMT использует базу данных из предложений или фрагментов текстов, которые уже переведены. После того, как система получает текст для перевода, она делит его на несколько сегментов (предложений) и ищет похожие в своей базе данных. Далее, сегменты сравниваются с теми что находятся в базе и происходит перевод. Получая новый текст, EBMT запоминает его, образуя память перевода и использует этот запрос для того, чтобы еще больше дополнить свою базу. Минусы такого перевода практически такие же, как и у CBMT — если в памяти системы недостаточно текста, то качество перевода страдает. Также могут быть ограничения для длинных предложений со сложной грамматикой. 

  • SMT. Статистический машинный перевод. У SMT есть несколько подвидов, но в нашей публикации мы не будем в них углубляться, а поговорим лишь об основах. Именно Уоррен Уивер, которого мы упоминали в самом начале, стал основоположником этой идеи. Однако в те годы мощности компьютерной техники не хватало для того, чтобы реализовать эту задумку. Всё стало возможно, начиная с 1990-х годов. Модель SMT основана на теории вероятности, а именно на теореме Байеса. Её задача — найти наиболее вероятный перевод предложения с одного языка на другой. Чем чаще встречается вариант перевода, тем больше шансов, что он правильный. Минус такого подхода, как и у других систем, в большой зависимости от объема находящихся в базе текстов, а также в сложности учитывания контекста. До 2016 года SMT использовал даже Google Translate. Если вас интересует эта тема на более глубоком уровне, то советуем прочитать книгу «Статистический машинный перевод» Филиппа Кена.

  • NBMT. Машинный перевод на основе нейронных сетей. Как работает этот механизм? Нейронные сети имитируют поведение человеческого мозга при обработке данных. Поэтому у NBMT появилось главное преимущество, опережающие другие системы — возможность учитывать контекст и грамматику на более глубоком уровне. В отличии от SMT, использующего вероятности, нейронные сети NBMT анализируют целые предложения и тексты в контексте, что позволяет создавать более точные и естественные переводы.

  • HMT. Гибридный машинный перевод. Этот метод может объединять в себе сразу несколько подходов, описанных выше: RBMT, CBMT, EBMT, SMT и NBMT. В 2010-х годах Systran стала одной из первых компаний, внедривших гибридный МП, сочетающий в себе SMT и RBMT. Особо важным событием в гибридном машинном переводе стало появление нейронных сетей, что помогло значительно улучшить качество итоговых переводов.

2. Критерии для сравнения онлайн-переводчиков

Каждый из переводчиков (Яндекс переводчик, Google Translate, DeepL) мы решили сравнивать по нескольким критериям, которые сведем в одну таблицу. Так вы сможете оценить все характеристики и выбрать, на каком варианте остановить свой выбор.

Что будет в таблице:

  • Поддержка языков — посмотрим, сколько языков для перевода предлагает каждый движок.

  • Поддержка редких языков — узнаем, какие переводчики поддерживают редкие языки.

  • Стоимость платных функций  — напишем стоимость всех тарифов у каждого из представленных переводчиков. 

  • Возможности интеграции — рассмотрим, поддерживает ли движок интеграции с программными системами и платформами.

3. Общая информация о переводчиках

Яндекс переводчик 

Не многие знают, но в 2011 году, когда сервис только начал свою работу, для перевода предоставлялись только три языка: русский, английский и украинский. Сейчас же этот список по официальным данным состоит из 96 языков, включая не слишком популярные: гаитянский креольский (Гаити), галисийский (Галисия), малагасийский (Мадагаскар). Кроме того, разработчики решили добавить и необычные языки. Так, с 2016 года у всех есть возможность перевода на синдарин — эльфийский язык, придуманный Дж Р.Р Толкином. Годом позже Яндекс научился переводить и на язык эмодзи.

Например так он видит заголовок нашей публикации:

Что касается технологий, используемых Яндексом, то это гибридный перевод (HMT), который сочетает в себе статистический машинный перевод (SMT) и перевод на основе нейронных сетей (NBMT) помощью YandexGPT. Для этого был разработан алгоритм, основанный на методе обучения CatBoost. Он позволяет оценивать несколько переводов и показывает тот, который, по его мнению, подходит лучше всего.

Google Translate

Согласно последним данным, на 2024 год Google Translate предлагает пользователям перевод на 244 языка. Особенно много удивлений вызвала новость в июне этого года, когда в Google объявили о том, что планируют сделать самое масштабное обновление за всю историю — 110 новых языков, большая часть из которых африканские. 

С октября 2007 компания использовала статистический машинный перевод (SMT), а в 2016 году разработали собственную модель нейронного машинного перевода, названную GNMT. Она включает в себя перевод на основе примеров (EBMT), о котором мы говорили ранее. Стоит помнить, что данная система не поддерживает перевод на все языки.

На изображении указаны языки с поддерживаемым переводом EBMT. Результат от использования этой технологии получается качественнее:

DeepL

DeepL часто сравнивают с Google Translate, Яндекс.Переводчиком. С момента своего запуска в 2017 году он получил признание за высокое качество переводов и быстро стал популярным среди профессионалов, работающих с текстами. Для перевода использует МП на основе нейронных сетей. Его архитектура обучена на огромных объемах данных, что позволяет лучше понимать контекст и смыслы текста, чем традиционные статистические или фразовые модели машинного перевода.

Сейчас в DeepL представлено около 30 языков, гораздо меньше по сравнению с другими сервисами, однако, это не помешало обрести ему популярность.

Давайте перейдем к сравнению основных характеристик переводчиков.

3.Таблица

Критерий

DeepL

Яндекс.Переводчик

Google Translate

Поддержка языков

30+

90+

140+

Интеграции

Да, 700+ интеграций

Да, есть интеграции по API

Да, более 290 готовых интеграций

Поддержка редких языков

нет

да

да

Стоимость

Платно для компаний, тарифы начинаются от 7,49 €

Платно для интеграций в приложения и веб-сервисы.

Бесплатно

Как вы видите, характеристики DeepL делают его прекрасно подходящим для корпоративной работы. Более 700+ интеграций позволяют использовать его не только в CAT-системах. Кроме того, каждый может подобрать для себя необходимый тариф. Однако, в нём нет поддержки более редких языков. Поэтому, если вам не нужно множество платных функций и важна работа с более редкими языками, лучше рассмотреть Я.Переводчик или Google Translate.

4. Тестирование движков и частые ошибки

В июне компания Intento опубликовала полный отчет о состоянии машинного перевода в 2024 году. Посмотреть его подробнее и скачать можно на официальном сайте. Всего принимало участие 52 разных МП и LLMs, в том числе и Google Translate, Яндекс Переводчик и Deepl.  

Исследование показало, что модели GPT-4o и DeepL превосходят другие решения в сфере машинного перевода. В рамках анализа были протестированы 11 языковых пар в 9 различных доменах, таких как финансы, юридический и др. Google занимает 3 место, а вот Яндекс сильно отстал от своих конкурентов, заняв только 14 место:

 сравнение различных систем машинного перевода по количеству случаев, когда они показали наилучший результат для определённых языковых пар и доменов

 сравнение различных систем машинного перевода по количеству случаев, когда они показали наилучший результат для определённых языковых пар и доменов

Основные выводы исследования:

  • 80% самых частых ошибок составляет неправильный перевод.

  • Чат GPT и DeepL показали самые лучшие результаты среди других языковых моделей.

  • Уменьшилось количество ошибок, связанных со сложными конструкциями, которые машинные системы не всегда могут корректно обработать​.

  • Большая часть ошибок перевода связана с изменением смысла и неверным использованием слов или фраз.

Мы также решили дополнить публикацию нашим опытом работы с этими переводчиками. Специально для материала собрали частые ошибки, встречающиеся в процессе перевода и продемонстрировали, как ведет себя каждый переводчик в разных случаях.

В ходе использования машинного перевода мы выявили несколько типов ошибок:

  • Ошибки на семантическом уровне: неверное словоупотребление/ искажение смысла.

  • На синтаксическом уровне: неестественные, ненативные конструкции.

  • Ошибки на грамматическом уровне: нарушение согласования.

Первый вид ошибок на семантическом уровне, встречается чаще всего. Они связаны с самой главной проблемой любого МП: невозможностью улавливать контекст и органично подставлять нужные значения слов. К счастью, они не являются критическими и их легко выявлять в процессе визуального сканирования. Например:

Верный перевод фразы: в кулачок патрона попала стружка. DeepL тут справился хуже всего с распознаванием подходящего перевода сразу для нескольких слов. В отличии от Google Translate и Яндекс Переводчика, он не смог перевести слова «патрон» и «стружка». С переводом словосочетания «попала стружка» и вовсе никто не справился.

И последний пример этого типа ошибок синтаксическая и лексическая калька:

К сожалению, ни у одного МП не получилось правильно перевести предложение. Смысл исходного текста: модный дом выпустил коллекцию одежды и аксессуаров (группу) для летнего отдыха. Была проигнорирована логика построения предложений, скопирована с оригинала. 

Второй вид ошибок — на синтаксическом уровне. Встречается реже, чем на семантическом. Они гораздо опаснее предыдущих из-за сложного обнаружения. С виду текст может показаться правильным, однако содержит неочевидные неточности.

DeepL совершенно не справился с этой задачей и не учел, что в русском языке порядок слов бывает как прямым, так и обратным. Из-за этого был предложен вариант: привести паспорт в соответствие с какими-то требованиями.

Третий вид ошибок — на грамматическом уровне, в структуре языковой единицы. В данном случае нарушение согласования:

Как мы видим, практически каждый из протестированных переводчиков испытывает проблемы с одинаковыми видами ошибок. Больше всего с неправильным переводом, что подтверждает не только наш личный опыт, но и аналитика Intento, о которой мы рассказывали выше. 

По частоте возникновения ошибки выглядят следующим образом:

  • Ошибки перевода — более 80%.

  • Ошибки при переводе идиом.

  • Пропуски фраз.

  • Остальное.

5. Выводы

Согласно исследованиям, с каждым годом процент ошибок онлайн-переводчиков становится всё меньше, а появление нейронных сетей позволяет системе быстрее обучаться и минимизировать некоторые виды неточностей. Однако механизм до сих пор не совершенен и не способен перевести так же хорошо, как профессионалы со стажем.

Если ваша цель — переводить простые каждодневные темы, бытовые и ненагруженные диалоги, то онлайн-инструменты прекрасно с этим справятся, допуская минимум ошибок и не ставя вас в неловкое положение из-за них. Для всего этого советуем вам использовать любую из систем в нашем сегодняшнем обзоре. Исходя из нашего опыта, лучше всех себя показывает DeepL. 

Еще несколько случаев, когда вам может подойти машинный перевод:

  • Общие темы. Простая структура предложений, без сложных речевых оборотов.

  • Медицина/фарма. Подойдут несложные документы с однотипной структурой и несложной терминологией. Для серьезных инструкций, от правильного перевода которых зависит жизнь человека — только с помощью переводчика. 

  • Небольшие мануалы/инструкции, в которых описание действий. Без узкоспециализированной терминологии. 

  • Некоторые учебные материалы.

Но если вы хотите переводить что-то серьезнее, то лучше обратиться к профессионалам. Особенно плохо МП справляется с маркетинговыми материалами. Происходит это из-за того, что иногда хороший текст нарушает правила, привычные для обученной машины. Как итог — она неправильно его обрабатывает и выдает результат с ошибками. 

Полный список материалов, которые не следует переводить с помощью МП самостоятельно: 

  • Технические тексты со сложной терминологией.

  • Узкоспециализированные тексты: научные статьи, аналитические исследования, правоохранительные стандарты и требования, инженерные спецификации, патентная документация и тд.

  • Литературные тексты со сложными фигурами речи. 

  • Документы, в которых содержится закрытая информация.

Если вам хочется экономить на услугах переводчика, то выход тоже есть. Многие агентства предоставляют услугу PEMT, включающую в себя машинный перевод + постредактирование. Редактор поможет исключить любые неточности и сделать качество вашего текста в разы лучше. Кроме того, существует услуга пруфридинга — вычитка текста носителем на предмет ошибок.

Спрос на машинный перевод и редактуру увеличивается (в нашем агентстве количество заказов услуги составляет 60% от всех), а вот запрос только лишь на МП совсем не востребован. Это говорит о том, что качество такой работы остается не на высоком уровне и текстам все равно необходима вычитка и последующая редактура.

Если вам необходимо перевести важные документы, особенно те, в которых содержится закрытая информация, лучше обращаться в агентства перевода. Каждый раз, когда вы загружаете текст в онлайн-переводчик, он сохраняет все данные, которые через него прогоняются. Это необходимо системе для того, чтобы учиться на ваших текстах и совершенствоваться. Иногда такие тексты «достают» из системы переводчики, чтобы проанализировать и свести количество ошибок к минимуму. В таких случаях нет гарантии, что информация «не утечет» к конкурентам и ей не воспользуются третьи лица. По этой причине лучше доверить перевод профессионалам. О конфиденциальности можно не волноваться — переводчики используют специальные CAT-платформы, далее которых информация не уходит.

Возможно, через несколько лет МП приблизится к уровню носителей языка. А пока перевод важных текстов стоит доверять только профессионалам. 

А каким переводчиком пользуетесь вы? 

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.

Каким переводчиком вы пользуетесь чаще всего?

23.26% Google Translate10
30.23% Яндекс. Переводчик13
34.88% DeepL15
11.63% Другой вариант5

Проголосовали 43 пользователя. Воздержались 6 пользователей.

ссылка на оригинал статьи https://habr.com/ru/articles/852810/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *