Понимание оценки BLEU в кастомизированном машинном переводе

TL;DR: Как алгоритм оценивает качество машинного перевода и как кастомизация движка улучшает читаемость текста.

Оценки BLEU необходимы для вычисления точности перевода: они позволяют сравнить эталонный перевод с машинным переводом (кандидатом).

В наши дни такое случается нечасто, но время от времени я всё ещё нахожу в своем почтовом ящике отличный пример того, что становится пережитком прошлого: спам-письмо с корявым переводом. Как и все остальные, я, конечно, не слишком люблю спам, но спам с ужасным переводом действительно привлекает внимание. Пословный перевод для меня как головоломка: я хочу узнать, смогу ли я провести «реверс-инжиниринг» и восстановить исходный текст.

В то же время я задаюсь вопросом, кто (или что) создал такой перевод. Письменный машинный перевод продвинулся очень далеко: трудно найти бесплатный машинный переводчик, который выполнил бы работу ниже среднего уровня. Я понимаю, что эта маленькая радость от чтения вслух худших ошибок из моего почтового ящика скоро останется в прошлом.

Тем не менее, это не означает, что все автоматические переводы теперь безупречны. Это далеко не так. Часто автоматические переводы, хотя и вполне понятные, все же создают ощущение неуместности, и особенно чтение объемного текста на новую тему часто очень утомительно. Речь идет лишь об усилиях, направленных на то, чтобы выйти за рамки текста и понять смысл. Машинный перевод продвинулся от непонятного к временами некомфортному.

Подстройка обучающих данных

Большие машинные переводческие движки вроде Google Translate, Microsoft Translator и Amazon Translate, позволяют клиентам подстраивать переводы в соответствии со своими сферами деятельности или даже стилем. Таким образом, подстройка машинного перевода является следующим шагом для того, чтобы переводы соответствовали ожиданиям их читателей. Идея в том, что нейронный машинный перевод предлагает базовые переводы, которые достаточно хороши для общего использования. А предоставив ему обучающий датасет, мы повышаем его качество, делая перевод более компетентным.

Датасеты должны включать значительный объем качественных переводов на ту или иную языковую пару. Настройка выполняется путем полного переобучения модели перевода или путем корректировки параметров на лету. В результате получается, что перевод более соответствует вашему стилю.

В TАUS уверены, что таким образом можно улучшить движки машинного перевода. Как компания, предоставляющая данные, мы стремимся провести эксперименты по созданию различных наборов данных для обучения и посмотреть, какое воздействие на перевод оказывает обучение на данных по определённой тематике.

В процессе обучения предусматривается несколько этапов:

выбор предметной области (домена) и языковых пар;
подбор подходящего материала для обучения;
оценка результатов обучения.

TAUS обладает огромным хранилищем языковых данных, но, как и с любым большим текстовым корпусом, некоторые комбинации языка и домена больше подходят для адаптации, чем другие. На основе накопленного опыта можно оценить шансы на успех.

Выбор данных для обучения — более сложная задача. Для этого необходимо задуматься о том, насколько узким должен быть домен и каким должно быть качество данных. Как вы можете ожидать, сужение фокуса вашего тренировочного датасета означает меньшую применимость, но лучшие результаты. Выбор частей данных, относящихся к предметной области, — это само по себе искусство, и оно будет улучшаться все больше и больше с развитием нейронных моделей.

Что касается качества данных, то больше — не обязательно лучше. Высокое качество и последовательность датасета важнее, чем количество. Это верно в большей степени, чем вы могли бы подумать. Это одна из вариаций принципа Анны Карениной. Число ситуаций, когда что-то может пойти не так, гораздо больше чем число ситуаций, когда всё идёт как надо. Это приводит к тому, что нижняя часть спектра качества страдает от внутренних несоответствий гораздо сильнее, чем в среднем, поэтому при обрезке данных не стоит быть слишком консервативным.

На самом деле, всё дело в подстройке и регулировании. Мы используем различные метрики надежности наших обучающих данных. Это очень похоже на приготовление лучшего эспрессо из кофейных зёрен, которые вам дали. Температура, грубость помола, количество: вы осторожно подбираете параметры до тех пор, пока не найдёте то самое сочетание.

Оценка качества

Идея тестирования машинного перевода проста: вы создаете обучающий набор с исходными предложениями и их переводом, но оставляете небольшую часть с очень надежными эталонными переводами. Никогда не тренируйте модель с эталонными переводами, потому что это выдаст правильные ответы тестирования. Вы используете его только для опробования движка перевода как до, так и после подстройки, а затем сравниваете сгенерированные переводы с эталонами.

Для оценки качества перевода доступно довольно много различных методов и показателей. Но ничто не сравнится со старой доброй человеческой проверкой. Мы это знаем наверняка, поскольку много работали над созданием динамичного подхода к оценке качества с помощью DQF. Для наших первоначальных оценок мы использовали небольшую человеческую проверку эталонных переводов и машинных переводов. Прежде всего мы хотели бы знать, были ли наши эталонные переводы хорошими (да, все они были довольно хорошими и почти всегда лучше, чем машинный перевод), а также помогала ли подстройка сделать перевод лучше.

Помимо первоначального исследования, для оценки последнего вида у человеческой проверки были свои ограничения. Работа по оценке экспериментов слишком объёмна и не масштабируется. Именно тогда возникает необходимость в автоматизированной оценке.

Если вы знакомы с дебатами об NLP, вы, вероятно, знаете, что много усилий затрачивается на понимание того, соответствует ли автоматическая оценка качества перевода человеческой оценке того, что называется качественным переводом. Презумпция состоит в том, что человеческая оценка всегда лидирует. Поэтому хорошая метрика должна отражать человеческую оценку, давая таким хорошим переводам высокий балл. Проблема с такими метриками часто заключается в том, что они не всегда могут быть сразу очевидными или интуитивно понятными. Логика метрики, похоже, не соответствует ее назначению. Это, безусловно, относится к наиболее часто используемым метрикам машинного перевода — оценке BLEU.

Вычисление оценок BLEU

Давайте познакомим вас с подсчетом баллов BLEU. Оценка BLEU принимает уже существующие идеально хорошие переводы как эталонный перевод и сравнивает выходные данные машинного перевода (кандидата) с этим эталоном. В конечном счете это сравнение выражается числом от 0 до 1. Чем выше цифра, тем лучше оценка.

Подобный метод должен как-то компенсировать тот факт, что у каждого исходного сегмента может быть несколько совершенно хороших, но разных переводов. Оценка BLEU и допускает несколько эталонных переводов, каждый из которых считается одинаково хорошим. Но любое отклонение от эталона или эталонов получает более низкую оценку. Вот где оценка BLEU усложняется. BLEU проверяет слова в переводе-кандидате, подсчитывает их, и всякий раз, когда слово из кандидата отсутствует в эталоне, оценка снижается. Для такого алгоритма слишком много — это плохо.

Исходя из этого, вы можете подумать, что ряд слов в произвольном порядке, который также присутствует в справочном переводе, даст высокую оценку, но это не так. В расчет включаются не только отдельные слова, но и группы последовательных слов. Алгоритм предлагает некоторую свободу действий для создания вариантов, но обычно все группы из двух, трёх и четырёх последовательных слов, которые есть в переводе-кандидате, подсчитываются и сравниваются со всеми группами из того же количества последовательных слов в эталонных переводах. Эти группы последовательных слов являются так называемыми n-граммами, и они обеспечивают то, что случайный порядок правильных слов не будет вознаграждён, поскольку соответствием считается только присутствие слов в том же порядке.

Лаконичность тоже негативно влияет на оценку. Мы уже видели, что слова в переводе-кандидате, которые не фигурируют в эталонных предложениях, понижают оценку. С другой стороны, кандидаты, в которых меньше слов, чем в эталоне, будут снижать максимально возможный балл за счет излишней краткости. На этой странице вы можете почитать об алгоритме оценки более подробно.

Оценка BLEU: больше, чем кажется

Оценка BLEU — это тип метрики, который лучше всего работает применительно к большим объемам данных. Во-первых, не ожидайте, что в подборке с высокой оценкой BLEU абсолютно каждый сегмент будет лучше, чем в другой тестовой подборке с более низкой оценкой. В конце концов, оценка BLEU является усреднённой оценкой, а значит отдельно взятые сегменты будут иметь разные оценки. Более того, даже в случае двух различных вариантов перевода одного и того же сегмента более высокая оценка BLEU будет обязательно означать более высокое качество. И наконец, не рекомендуется сравнивать крупные части переведенного текста, основанного на оценке BLEU, если исходный текст полностью отличается.

Однако в целом при сопоставлении двух крупных подборок переводов-кандидатов из одного и того же источника кандидат с более высокой оценкой, как правило, считается лучшим переводом.

Как выглядит повышение оценки

Подстройка обучающих датасетов для ускорения машинного перевода требует большого количества проб и ошибок. Сначала мы были настроены на скромное влияние оценки BLEU в несколько баллов, но мы были очень впечатлены тем, что хороший обучающий датасет может повысить тестовый перевод на 6 баллов, а иногда даже примерно на 10 баллов. Это на самом деле очень много.

Много — это сколько? Цифры могут показаться довольно впечатляющими, но как это влияет на сами переводы? Приведу несколько примеров, которые демонстрируют, как переводы могут существенно улучшиться. Поскольку голландский — это мой родной язык, я приведу примеры на нём, но объясню тонкости, достаточные для понимания читателями, не говорящими на голландском.

Одна из подстроек включала большой набор медицинских переводов. Мы обучали движок Amazon Translate, используя «Active Custom Translation», который позволяет выполнять перевод на лету с использованием двуязычного корпуса. Некоторые из основных тем в учебном корпусе касались:

Как и когда вводить лекарства;
Какие последствия и побочный эффект можно ожидать от лечения;
Проведение экспериментов для медицинских исследований;
Доклады по бионаучным отчетам.

Мы использовали тестовый набор из 2000 сегментов. После подстройки перевода с помощью нашего обучающего датасета общий балл BLEU вырос на 7 баллов, с 44,3 до 51,3. Было 825 сегментов, в которых были какие-то изменения, из которых 600 имели более высокий балл BLEU после перевода. Те, которые оказали негативное влияние на оценку BLEU, в среднем не изменились так сильно, как те, у которых была более высокая оценка BLEU.

Изменения в переводе вносились в самых разных формах. Но некоторые исправления возвращаются чаще. Обучение на датасете сформировало гораздо более формальный стиль.

Исходное предложение	Стандартный перевод	Новый перевод	Эталон
Thank you! We will contact you as soon as possible.	Dank je wel! We nemen zo snel mogelijk contact met je op.	Bedankt! We nemen zo spoedig mogelijk contact met u op.	Bedankt, we nemen zo spoedig mogelijk contact met u op.

Обратите внимание, что и «u», и «je» являются переводом слова «you», но «je» гораздо более неформальное, и не будет использоваться для обращения к людям в медицинских учреждениях. «As soon as possible» изменилось с «zo snel mogelijk» на «zo spoedig mogelijk». Оба варианта правильные, но «spoedig» снова обладает более формальным тоном, что вы и ожидаете увидеть в контексте медицинской организации.

Помимо использования более формального языка, улучшенный перевод также был более профессиональным для медицинской сферы. Например:

Исходное предложение	Стандартный перевод	Эталон и новый перевод
[Product] is given according to official recommendations.	[Product] wordt gegeven volgens officiële aanbevelingen.	[Product] wordt toegediend in overeenstemming met officiële aanbevelingen.

После тренировки движка, перевод стал полностью повторять эталон. «Toegediend» является переводом слова «administered», и это более предпочительный вариант, чем то, что генерировалось по-умолчанию, где использовался более дословный вариант перевода «gegeven» для «given». То же самое относится к различиям в «in overeenstemming met» и «volgens».

Другие изменения сделали перевод менее двусмысленным. Например:

Исходное предложение	Стандартный перевод	Новый перевод
[Substance] was studied in 14 main studies involving over 10,000 patients with essential hypertension.	[Substance] werd bestudeerd in 14 hoofdonderzoeken waarbij meer dan 10.000 patiënten met essentiële hypertensie betrokken waren.	[Substance] werd onderzocht in veertien belangrijke studies waaraan meer dan 10 000 patiënten met essentiële hypertensie deelnamen.

После подстройки движка это было сформулированно точно как в эталоне.

Обратите внимание, что в исходном предложении использовалось слово «studied», в смысле проведения эмпирического исследования. Для этого также можно использовать голландское «bestudeerd», но оно чаще используется для изучения литературы, а «onderzocht» имеет менее двусмысленное значение для научных исследований. Тот же вид неоднозначности присутствует в «betrokken» для слова «involving»: это хороший перевод, и самый буквальный. Однако «deelnamen» («participating») лучше, так как означает более активное участие в исследовании. Наконец, «hoofdonderzoeken» является немного странным, подразумевая своего рода иерархию в исследованиях, в то время как «belangrijke studies» выглядит совершенно естественны в этом контексте.

Исходное предложение	Стандартный перевод	Новый перевод
Hallucinations are known as a side-effect of treatment with dopamine agonists and levodopa.	Hallucinaties staan bekend als een neveneffect van behandeling met dopamineagonisten en levodopa.	Hallucinaties zijn bekend als bijwerking van de behandeling met dopamine-agonisten en levodopa.

И снова подстройка показывает более глубокое знание в предметной области. Используя фразу «staan bekend als», перевод по-умолчанию передавал следующий смысл: «Галлюцинации известны как побочный эффект», подразумевая, что большинство считает галлюцинации побочным эффектом именно этого метода лечения, тогда как «Hallucinaties zijn bekend als» всего лишь констатирует, что галлюцинации могут возникать в качестве побочного эффекта. Разница может быть очень тонкой, но именно она определяет, будет ли перевод восприниматься как уместное и хорошо сформулированное предложение, или удивит читателя без необходимости.

В качестве последнего примера, подстройка смогла очень лаконично исправить непонятный перевод. Источник был довольно неуклюжим:

Исходное предложение	Стандартный перевод	Новый перевод
[Product name] also induced an advance of the time of sleep onset and of minimum heart rate.	[Product name] veroorzaakte ook een voorschot van het begin van de slaap en de minimale hartslag.	[Product name] vervroegt ook de tijd van inslapen en van minimale hartfrequentie.

В стандартном переводе говорилось о некоем «депозите» («voorschot») начала сна и минимального сердечного ритма. После подстройки исчезла всякая связь с финансовыми институтами, и перевод сообщил о том, что продукт вызыват ранний отход ко сну и пониженный сердечный ритм.

Эти примеры показывают, насколько предметная область определяет ожидания от используемого языка. При использовании более общих моделей перевода это ожидание нарушается, что значительно усложняет чтение и понимание текста.

Оценка BLEU перевода — это не тот вид метрики, который сразу кажется понятным. Он имеет максимум 100% и минимум 0%, но помимо этого сложно определиться с жесткими ограничениями на хорошее или плохое качество. Не рекомендуется сравнивать значения по разным предметным областям и языкам, но это укажет на улучшения в одном и том же тестовом переводе, если перевод достаточно велик, а эталонные переводы надежны.

Когда станут заметны улучшения? Это вопрос деликатности, но улучшение более чем на 5 процентных пунктов позволяет создавать более качественный машинный перевод. Не каждое предложение становится лучше, но в целом улучшение реально и в целом сделает чтение лучше.

Об авторе

Дэвид Кут (David Koot)

Дэвид хорошо знает индустрию локализации. Будучи знакомым со многими ролями, он уделяет основное внимание анализу рабочих процессов и изучению инноваций в области письменного перевода. Он был одной из движущих сил по созданию DQF и по-прежнему уделяет основное внимание контролю качества данных. Обладая обширными знаниями средств и методов перевода, он интересуется, что находится под капотом, и стремится создать новые связи.

ссылка на оригинал статьи https://habr.com/ru/post/661377/