Суперкомпьютер IBM Watson выучил уличный жаргон: пришлось чистить ему память

от автора

Разработчики суперкомпьютера IBM Watson сделали большую ошибку, когда закачали в его память словарь уличного жаргона с сайта Urban Dictionary. IBM Watson обучен распознавать смысл предложений/вопросов и отвечать на них, используя усвоенные массивы неструктурированных данных (data mining). Благодаря этому компьютер выиграл у чемпионов телевикторины «Своя игра» (Jeopardy) в 2011 году, после чего начал изучать медицинские справочники с целью диагностировать болезни по симптоматике, как доктор Хаус.

Разработчики думали, что информация о дополнительных смыслах слов улучшит искусственный интеллект, поможет ему лучше понимать людей. Они ошиблись. Уличный жаргон оказался исключительно вреден суперкомпьютеру. Однажды он даже ответил на вопрос неприличным словом “Bullshit”.

В результате, разработчики приняли решение очистить память IBM Watson от сленга и поставить фильтр на выдаваемые слова, чтобы не допустить случайно ненормативной лексики в прямом эфире.

Ответственность на себя взял один из руководителей проекта Эрик Браун (Eric Brown). На фотографии он изображён внутри кластера IBM Watson.

В интервью CNNMoney Эрик Браун рассказывает, что проблема возникла с тем, что компьютер не мог уловить грань, какой смысл слова считается приличным, а какой — неприличным. Из-за этого он иногда использовал слова в неприличном смысле.

Эрик Браун говорит, что некоторые плохие привычки у IBM Watson появились также и после чтения Википедии. Вот почему удаления Urban Dictionary оказалось недостаточно, а пришлось ставить дополнительный словарный фильтр. В будущей работе IBM Watson как врача-диагноста лексика вроде OMG или LOL вовсе неуместна.

ссылка на оригинал статьи http://habrahabr.ru/post/165423/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *