Система AlphaGo выиграла третью, решающую игру у Ли Седоля

от автора


Третья победа ИИ в серии из пяти игр в го

Го — восточноазиатская логическая игра с древней историей и богатыми культурными традициями. Существует несколько правил и вариаций, но основная цель одна: каждому из двух игроков нужно отгородить камнями своего цвета территорию как можно большего размера. Исследователей искусственного интеллекта в го привлекает сложность. Число возможных позиций в го куда выше (10100), чем в шахматах. Современные системы играют неплохо, но на уровне любителей. До создания компьютерной системы, которая сможет обыгрывать лучших из людей, в лучшем случае десяток лет.

Так эксперты говорили до появления AlphaGo. Разработка от DeepMind (в 2014 году компанию купила Google) использует метод Монте-Карло. Лучшие из современных систем компьютерного го используют эту технологию. Но в AlphaGo ходы также помогают выбрать нейросети политики и ценности. Их можно назвать близкими родственниками нейросетей, которые распознают изображения и речь. Value networks и policy networks натренировывали на 160 тысячах партий с сервера KGS, а также в игре AlphaGo против самой себя.

Впервые внимание ИИ привлёк в этом январе. Тогда Google опубликовала научную работу по AlphaGo, где упоминался матч октября 2015 года. Европейский чемпион Фань Хуэй проиграл новой разработке в пяти играх из пяти.

Считается, что европейский уровень владения го ниже, чем на родине игры, в Азии. Вызывали вопросы и ходы. Поэтому энтузиасты ИИ и игроки го с нетерпением ждали сеульского матча AlphaGo против одного из лучших представителей команды людей — обладателя девятого профессионального дана Ли Седоля. До марта вопрос стоял следующим образом: есть ли у AlphaGo шанс против Ли Седоля? Но Седоль проиграл как первую, так и вторую игры. Если после первой игры мастер девятого дана демонстрировал оптимизм, то после второй он ушел в смятении. Седоль заявил, что он не увидел моментов, где он вёл игру.

Сегодня прошла третья партия, которая также закончилась поражением. К концу у Ли Седоля кончилось время, поэтому ходы человеку пришлось обдумывать по минуте. AlphaGo же продемонстрировала умение работать со сложными моментами в виде позиций ко.

Это уже третья подряд победа AlphaGo в серии. Определён общий исход исторической серии пяти игр. Определена судьба денежного вознаграждения — очевидно, что теперь он уйдёт на благотворительность и развитие го, как и задумывалось в случае поражения человека. Определять глубину демонстрации преимущества AlphaGo будут две последние игры в воскресенье и вторник — несмотря на очевидный вывод серии игр, её всё равно доиграют.


В прошлом марте система обыграла игрока второго профессионального дана, сегодня она обходит мастера девятого дана. Возможно, этому помог факт того, что последние пять месяцев система AlphaGo тренировалась в играх против самой себя. Как утверждает глава DeepMind Демис Хассабис, текущая конфигурация использует примерно столько же аппаратных ресурсов, что и вариант, который обыграл Фань Хуэя. Хассабис говорит, что важнее алгоритмы, а не «железо».

Во вторник пройдёт последняя, пятая игра. Тогда будут подведены итоги сражения пяти тысяч лет человеческого опыта игры в го и двухлетней разработки, запускаемой на кластере из нескольких десятков коммерчески доступных серверных процессоров графических ускорителей.

Канал DeepMind с трансляциями игр на YouTube. Комментируют на английском Майкл Редмонд (9 профессиональный дан) и Крис Гэрлок.
Опубликованный вчера обзор алгоритмов AlphaGo на «Хабре»

ссылка на оригинал статьи https://geektimes.ru/post/272508/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *