在2019年的WSOP主赛事落幕之后,来自卡耐基梅隆大学的计算机科学家Noam Brown和Tuomas Sandholm向世界公布了扑克AI——Libratus的迭代产品,Pluribus。
7月11日,他们在《科学》杂志上发表了关于这次迭代的最新研究论文。Pluribus在6人无限制德州扑克中击败了人类顶级专业选手。美国陆军参与资助了这项研究的数学建模部分,Facebook则为参与比赛的扑克玩家提供了奖金。
不可否认,在6人无限制牌桌上取得突破,是扑克AI发展过程中的一项重要里程碑。
策略
AIPoker曾多次介绍Libratus的原理和开发历程。此次Libratus迭代至Pluribus,研究团队依托的研究方向依然是“纳什平衡”。Pluribus依旧不琢磨人脑,但Pluribus可以执行人脑达不到的计算量。
Pluribus的牌桌进攻计划,专注于策略组合和预测押注。随机策略组合也是德扑牌手们在牌桌上渴望实施的计划:随机展开个人的混合策略,并且有条不紊地去执行。但人毕竟不是机器。严格地不受任何外界、自我干预,毫无感情地去执行计算,确实只有机器能做到。
Pluribus并没有将其策略运用于对手,因此它也没有利用人类玩家不可避免的模式和倾向。无论对手的比赛风格和策略如何,它只忠于自己的牌桌计划。
研究结果表明,“无论Pluribus实际持有何种手牌,它都将首先计算出如何与所有可能的其他牌的组合结果,小心平衡所有牌的策略,以使对手保持不可预测性。” “一旦计算出所有人的平衡策略,Pluribus便会执行其实际持有的牌的执行动作。”
Pluribus 在计算机统计原理的大背景下能取得稳固的胜利,让人类的顶尖扑克玩家印象深刻。
在六人牌桌的对弈研究中,Pluribus的组合策略基于一种新的有限前瞻算法,这正是它能够打败多个人类扑克玩家的原因。这是完全信息博弈的标准方法,但在非完全信息博弈中却极具挑战性。
Pluribus 首先通过和 6 个它自己的副本玩的场景来计算一个“蓝图”策略,这让它能在第一轮下注。之后,Pluribus 将在更细粒度的博弈抽象中更详细地搜索可能的变动。这时,它会展望未来的几步,由于计算量的限制,它并不会推演到博弈的最后。
具体来说,在博弈的子树上,AI 考虑了每个对手和自己可能会在剩下的比赛中采用的五个可能的延续策略。可能的延续策略的数量很多,但研究人员发现他们的算法只需要考虑每个子树上的每个选手的五个延续策略来计算强大、平衡的整体策略。
Pluribus 也试图变得不可预测。例如,如果人工智能拥有最好的一手牌,那么投注就有意义,但是如果人工智能只有在拥有最好的一手牌时才投注,那么对手就会很快赶上来。因此,Pluribus 计算出各种可能,并在所有可能性中保持平衡的策略。
尽管德州扑克是一种极其复杂的游戏,但 Pluribus 有效地利用了计算。最近在游戏中取得里程碑式进展的 AI 使用了大量服务器和 GPU;双人扑克 AI Libratus 需要大约 1500 万个小时来开发策略,在实时游戏中使用了 1400 个 CPU 核心小时。而 Pluribus 仅使用了 12,400 个核心小时就计算出了蓝图策略,并且在现场游戏中仅使用了 28 个核心小时。
下注
从Libratus 时代开始,扑克AI就在下注环节启动了异于人类的方法。
在人类牌桌上,牌手通常下注的数量只是底池的一小部分。如果底池里有300美元,那么人类下150美元很正常。当然也可以下300美元,偶尔有人会投入500美元。但是扑克AI在下注问题上与人类截然不同。
以Libratus为例,通常它自主下注时都不选择小额,而是底池的3倍、5倍、甚至是100倍。AI豪放的下注模式对人类牌手都是巨大的冲击。甚至令人沮丧,人类牌手会认为自己的对手握着极其强大的牌面。甚至有时AI在第二手牌就压出了重注。此时AI举动的幕后解读在人类看来无非是两个意思:要么我在诈唬,要么我的牌好死了。
迭代后的Pluribus,延续了这种豪放的打赌式下注方式。当人类玩家还在叫call的时候,AI的下注已经完成了。
未来
以Pluribus为代表的扑克AI研究,注重的依旧是计算科学与人工智能的基础研究。Noam Brown明确表示,研究团队不会公布研究代码,因为这会干预整个在线扑克市场。该项目并非旨在创造一种可以分析人类扑克游戏的商业产品。
但Noam Brown确实认为这项研究可以用来改善人们玩扑克的方式。理解GTO战略是游戏的重要组成部分,这样的技术可以帮助人们更好地理解这一方面。除了扑克玩家可以使用扑克AI用于提升牌桌技术之外,计算机所给予的全新策略组合思路,甚至下注诈唬的形式,都可以被人类所借鉴及学习。
此外,在电视直播及观赛环节,基于Pluribus思路的应用可以为讲解员和观众提供更加全面的数据视角,使观众能够更加容易地理解牌桌上的局面,为解说员提供更多的评论探讨角度。但不得不说的是,观看WSOP主赛事转播的观众,更在意的还是人类选手之间瞬息莫测的心理博弈和你输我赢。而不是更加友好互惠的“双赢”和谐局面。
本文参考、整理编译于网络公开来源。并不代表AIPoker的官方观点。
参考整理来源:
https://www.thetimes.co.uk/article/poker-bot-locked-up-to-save-human-players-from-ruin-klhmcnmlp
https://science.sciencemag.org/content/early/2019/07/10/science.aay2400