Машинный перевод нейросетками: несколько приёмов чтобы улучшить качество

от автора

Меня немного удивила статья уважаемых специалистов по локализации, сравнивающая различные движки перевода. По-моему, и гугловский, и яндексовский переводчики, и даже DeepL уже полгода как списаны в утиль и представляют исключительно исторический интерес.

Перевожу в последнее время только нейросетями и часто даже при наивном подходе получаю нормальные результаты. Наивный подход — это зайти в ChatGPT и написать «Please translate `大型アプデ!セルフレジの導入で大富豪となったスーパーマーケット経営ゲーム` from Japanese to English».

Лучше, конечно, будет обогатить запрос и дать нейросетке возможность уточнить область поиска слов. Контекст скармливаю следующим путем:

  • Перечисляю термины и имена собственные, перевод которых мне нужен именно в определенном виде. Например говорю, что pitch accent надо переводить как «питч акцент», а не «музыкальное ударение».

  • Если надо перевести абзац литературного текста — скармливаю еще пяток абзацев, которые были рядом, заодно прибавляя преамубулу в духе «о чем произведение вообще», что «стиль автора напоминает нашего Чехова» и что «Танака в этом произведении вырос в неблагополучной семье и говорит как гопник».

  • Если надо перевести какие-то таблицы или менюшки в какой-то программе или еще чего-то спископодобное — рассказываю, на что похоже приложение и какие у него есть аналоги.

  • Если для программки есть английский и испанский ручной перевод — можно скормить оба, точность итогового русского возрастет.

  • Еще можно привести кусок хорошо написанной статьи, в которой автор описывает какие-то действия с этим приложением.

Порой проявляется интересный эффект. Пишешь запрос на английском и просишь нагенерировать чего-то на японском. Читаешь — и понимаешь, что сгенерированный текст имеет какой-то… английский акцент, что ли. Как будто учитель японского говорит с учениками, а не носитель с носителем. Учебниковский японский получается. Проблема часто решается тем, что запросы тоже делаются на целевом языке. Причем можно и на корявом японском спросить (например с помощью DeepL’a полученным) — эффект все равно будет.

Нейроговорилки неплохо умеют стилизовать речь и играть в ролевые игры. Поэтому иногда вместо сказанных сухим тоном инструкций вроде «при ответе используй лексику шестилетнего ребенка» эффективнее представиться шестилетним ребенком, сказать электронному болвану, что он тоже шестилетний и переформулировать запрос так, как сформулировал бы его шестилетка.

Стоит пробовать разные движки. Например, бубнящий себе под нос o1-preview от OpenAI не всегда справляется лучше, чем их же 4o. Возможно, потому что бубнит по-английски.

Короче говоря, было бы интересно сравнить работу не этих устаревших движков, а нескольких нейронных сеток. Начать можно с беглого поиска в Google Scholar. Если кто возьмется — тэгните меня, пожалуйста.


ссылка на оригинал статьи https://habr.com/ru/articles/852840/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *