Третья победа ИИ в серии из пяти игр в го
Го — восточноазиатская логическая игра с древней историей и богатыми культурными традициями. Существует несколько правил и вариаций, но основная цель одна: каждому из двух игроков нужно отгородить камнями своего цвета территорию как можно большего размера. Исследователей искусственного интеллекта в го привлекает сложность. Число возможных позиций в го куда выше (10100), чем в шахматах. Современные системы играют неплохо, но на уровне любителей. До создания компьютерной системы, которая сможет обыгрывать лучших из людей, в лучшем случае десяток лет.
Так эксперты говорили до появления AlphaGo. Разработка от DeepMind (в 2014 году компанию купила Google) использует метод Монте-Карло. Лучшие из современных систем компьютерного го используют эту технологию. Но в AlphaGo ходы также помогают выбрать нейросети политики и ценности. Их можно назвать близкими родственниками нейросетей, которые распознают изображения и речь. Value networks и policy networks натренировывали на 160 тысячах партий с сервера KGS, а также в игре AlphaGo против самой себя.
Впервые внимание ИИ привлёк в этом январе. Тогда Google опубликовала научную работу по AlphaGo, где упоминался матч октября 2015 года. Европейский чемпион Фань Хуэй проиграл новой разработке в пяти играх из пяти.
Считается, что европейский уровень владения го ниже, чем на родине игры, в Азии. Вызывали вопросы и ходы. Поэтому энтузиасты ИИ и игроки го с нетерпением ждали сеульского матча AlphaGo против одного из лучших представителей команды людей — обладателя девятого профессионального дана Ли Седоля. До марта вопрос стоял следующим образом: есть ли у AlphaGo шанс против Ли Седоля? Но Седоль проиграл как первую, так и вторую игры. Если после первой игры мастер девятого дана демонстрировал оптимизм, то после второй он ушел в смятении. Седоль заявил, что он не увидел моментов, где он вёл игру.
Сегодня прошла третья партия, которая также закончилась поражением. К концу у Ли Седоля кончилось время, поэтому ходы человеку пришлось обдумывать по минуте. AlphaGo же продемонстрировала умение работать со сложными моментами в виде позиций ко.
Это уже третья подряд победа AlphaGo в серии. Определён общий исход исторической серии пяти игр. Определена судьба денежного вознаграждения — очевидно, что теперь он уйдёт на благотворительность и развитие го, как и задумывалось в случае поражения человека. Определять глубину демонстрации преимущества AlphaGo будут две последние игры в воскресенье и вторник — несмотря на очевидный вывод серии игр, её всё равно доиграют.
#AlphaGo won game 3 and the match! Historic moment. In complete awe of Lee Sedol’s incredible genius, and proud of the amazing AlphaGo team!
— Demis Hassabis (@demishassabis) 12 марта 2016 г.
В прошлом марте система обыграла игрока второго профессионального дана, сегодня она обходит мастера девятого дана. Возможно, этому помог факт того, что последние пять месяцев система AlphaGo тренировалась в играх против самой себя. Как утверждает глава DeepMind Демис Хассабис, текущая конфигурация использует примерно столько же аппаратных ресурсов, что и вариант, который обыграл Фань Хуэя. Хассабис говорит, что важнее алгоритмы, а не «железо».
Во вторник пройдёт последняя, пятая игра. Тогда будут подведены итоги сражения пяти тысяч лет человеческого опыта игры в го и двухлетней разработки, запускаемой на кластере из нескольких десятков коммерчески доступных серверных процессоров графических ускорителей.
Канал DeepMind с трансляциями игр на YouTube. Комментируют на английском Майкл Редмонд (9 профессиональный дан) и Крис Гэрлок.
Опубликованный вчера обзор алгоритмов AlphaGo на «Хабре»
ссылка на оригинал статьи https://geektimes.ru/post/272508/
Добавить комментарий