InScience

Один на один с машиной

С 11 января в Casino Rivers в Питтсбурге (Пенсильвания) проходит покерный турнир Brain vs AI (мозг против искусственного интеллекта), в котором четыре профессиональных игрока противостоят компьютерной программе Libratus, разработанной учеными из Университета Карнеги-Меллон. Все участники играют в разновидность покера под названием безлимитный техасский холдем, причем каждая партия протекает один на один (хедз-ап). В отличие от игры с числом игроков больше двух, играть так проще, ведь возможных наборов информации в данном случае учитывать нужно меньше. Однако, чтобы исход соревнований не оказался случайностью, а был связан с эффективностью программы, будут сыграны дубликаты матчей. Другими словами, игрок А получает карты, которые получил компьютер в партии с игроком В и наоборот. Оба матча проходят в одно и то же время, один в изолированной комнате, второй — на публике в казино.

Как играем?

В покере цель игрока — забрать «банк», сформированный ставками других участников игры. В начале партии на руках у игрока (в зависимости от вариации покера) имеется четыре либо пять карт, из которых он убирает в сброс две или три карты соответственно, и в ходе одной или нескольких раздач карт игрок пытается собрать у себя наиболее выигрышную комбинацию. В большинстве вариаций покера между раздачами происходит так называемая «торговля»: в зависимости от игрового положения или стратегии игроки поднимают ставку или сбрасывают карты, отказываясь от дальнейшей игры.

В отличие от шахмат и го, игроки не обладают полной информацией о положении своих противников, так как не видят их карт. Тем не менее покер можно рассматривать с точки зрения математики: чтобы увеличить свою прибыль за покерным столом, некоторые люди учатся следить за тем, какие карты остаются в колоде, и считать количество карт, которые могли бы приблизить их к возможной победе. На языке покера это называется «считать ауты», то есть подсчитывать карты в колоде, которые, при наличии у игрока практически готовой комбинации, помогут ему эту комбинацию дополнить.

Самая популярная вариация игры в покер — техасский холдем. Помимо нее существуют и другие разновидности с некоторыми отличиями в правилах и стратегиях. К ним относятся Омаха, Стад, Дро-покер, Лоуболл и другие, в которые играют как на мировых сериях, так и в узком кругу с друзьями. Распространенность техасского холдема объясняется достаточно простыми правилами и тем, что соотношение открытой и скрытой информации оптимальное. Существует несколько модификаций покера, в том числе и техасского холдема: лимитированный, безлимитный и с пот-лимитом. Они различаются между собой размерами возможных ставок: в первом случае их размер фиксирован, во втором — максимальная ставка ограничивается количеством фишек, имеющихся у игрока, а в третьем — на размер ставки может влиять только размер «банка» (сумма всех ставок), то есть максимальный лимит ставки — текущий размер «банка».

Оптимальной стратегии игры в покер не существует точно так же, как и нет идеальной тактики в шахматах и го. В покере есть и чисто человеческий фактор: игроки иногда прибегают к стратегическим приемам, таким как блеф. Также широко используются вероятностный подход и подсчет шансов банка. Поэтому большое разнообразие возможных стратегий уменьшает шансы на победу искусственного разума.

Матч-реванш

Программы, которые умеют играть в покер, были придуманы достаточно давно и варьируются от любительских до профессиональных. Тем не менее для компьютера победа над чемпионами в покер пока еще остается вызовом. В 2015 году в ходе аналогичного турнира Brain vs AI компьютерная программа Claudico, которую также создали исследователи из Университета Карнеги-Меллон, не смогла обыграть людей. Двое из них, Джейсон Лес и Дун Ким, участвуют и в текущем турнире. Тогда один из игроков, Бьорн Ли, сказал: «Мы понимаем, что в один прекрасный день искусственный интеллект нас все-таки обгонит. Но на данный момент на вершине все еще остаются люди». Турнир, который идет сейчас, — попытка ученых взять реванш. Спонсоры игры считают, что обновленная программа имеет гораздо больше шансов сорвать банк, чем Claudico, но и игроки не готовы сдаваться.

Мы не пишем стратегию, мы пишем алгоритм, который определяет стратегию.

Туомас Сэндхолм

Профессор Университета Карнеги-Меллон, один из разработчиков программы Libratus

Libratus, по словам профессора информатики Туомаса Сэндхольма, руководителя команды разработчиков программы, совершает гораздо больше вычислений, чем предшествующие покер-боты. «Мы не пишем стратегию, мы пишем алгоритм, который определяет стратегию», — пояснил ученый. В отличие от Claudico, Libratus также будет использовать сетевые мосты, которые помогут проводить вычисления в режиме реального времени, и, возможно, Libratus сможет успешно блефовать.

В 2016 году компьютерная программа, однако, перешагнула рубеж на пути к победе над человеком в сложной стратегической игре. Речь идет о разработке компании Deep Mind под названием Alpha Go и об игре го. Искусственная нейронная сеть смогла повторить триумф Deep Blue, победившего Гарри Каспарова в шахматы около 20 лет назад, и обыграть Ли Седоля, признанного одним из лучших игроков в го, в четырех из пяти возможных партий. Тем не менее программисты считают покер гораздо более сложной игрой, чем шашки, шахматы или го.

Если компьютерный разум сможет одержать победу, разработку можно будет использовать и в других областях, не связанных с покером: в медицине, кибербезопасности или в военных целях. Пока машина показывает себя очень успешно.

P.S. На момент написания заметки Libratus обыгрывает трех из четырех игроков, выигрывает пока только Дун Ким.

Подписывайтесь на InScience.News в социальных сетях: ВКонтакте, Telegram, Одноклассники.

Тэги

Поиск

Подписывайся

Последние новости