人工智能在扑克游戏中的应用与发展

作者:皮尔2025年07月03日
人工智能在扑克游戏中的应用与发展

世界上越来越多的人通过光纤线路获得扑克游戏。新冠病毒把我们关在室内。随着这种情况的出现,旧的对机器人的恐惧再次开始抖落沉睡的灰尘。卡内基梅隆大学与脸书合作测试了他们最新的通用人工智能。再一次——为了混合我的游戏比喻——人类把它射入草丛。

这款名为 ReBeL 的新人工智能设法击败了他们之前的人工智能在扑克游戏中的胜率,并且“比之前的任何扑克人工智能都少得多领域知识”。这句话出自他们上个月在 ArXiv 上发表的论文。

“领域知识”指的是特定于主题的知识,在这种情况下,是关于扑克游戏的知识。这与“一般知识”相反,在这种情况下,人工智能对如何为不完全信息游戏制定策略的知识。

在论文中,他们还证明了人工智能可以实现单挑比赛中的纳什均衡。

堕落前的失误

曾经有一段时间,无限额扑克被视为人工智能无法逾越的障碍。太多的因素,太多未知的讯息,太多的下注额。每一个决定都与随后的每一轮下注相联系。

但也有一个时代,君士坦丁堡的城墙被认为是无法逾越的。而最终,只需要奥斯曼帝国掌握火药即可。

事实上,当脸书的新杀手级应用程序出现时,注定要使无限额德州扑克变得不堪一击的硝石和硫磺已经在阳光下风干了。

卡内基梅隆大学的 Libratus 人工智能在 2017 年愚弄了四位顶尖职业选手,每 100 手牌赢得 14.8 个大盲注。那是单挑比赛,使用重复的桥牌风格系统来最大限度地减少方差,在单独的牌桌上处理相同的牌,人工智能在每张牌桌上获得牌的不同面。

卡内基梅隆大学的研究人员感觉很自负。那时,Libratus 每 100 手牌获得了 14.8 个大盲注。

然后,去年他们的 Pluribus 人工智能证明了它可以在更复杂的 6 人制比赛中获胜。这包括 Pluribus 的五个副本对阵像克里斯·“耶稣”·弗格森这样的玩家的比赛——弗格森已经以其近乎机器人般的比赛风格而闻名——以及 Pluribus 是六个玩家中唯一非人类玩家的比赛。它在这两种情况下都获胜了。

下一代 ReBeL

ReBeL 目前又回到了单挑比赛,因为它试图做的事情比之前的人工智能更复杂。在国际象棋或围棋等信息完整的情况下,ReBeL 的思考方式与 AlphaGo 非常相似。在这些情况下,它使用强化学习(RL)的组合,在这种情况下,游戏会查看可能的结果并尝试最大化其奖励。根据游戏的类型,这些奖励是积分、目标、金钱、拯救的生命或结束的生命。

但是,当信息被隐藏时,例如在扑克游戏中对手的手牌,一个全新的算法就会启动。这使用了研究人员所称的公共信念状态(PBS)。PBS 使用多个人工智能模型来计算游戏中的各个玩家可能基于可用常识而相信的内容。它使用它来模拟可能的行动并选择其策略。

结果是一个更灵活的人工智能,可以随时随地计算策略,并以每 100 手牌赢 Dong Kim 16.9 个大盲注。它每个决定需要不到五秒钟。

这胜过 Libratus,让所有人类看起来都很糟糕。

“虽然已经存在可以在扑克游戏中实现超人表现的人工智能算法,”该团队写道。“这些算法通常假设参与者拥有一定数量的筹码或使用某些下注额。重新训练这些算法以考虑任意筹码堆或意外的下注额需要比实时更复杂的计算。然而,ReBeL 可以在几秒钟内计算出任意筹码大小和任意下注额的策略。”

人工智能适用于所有季节

灵活性使其适用于广泛的领域。部分出于这个原因,卡内基梅隆大学和脸书发布了“骗子骰子”版本。而不是扑克版本。

另一个原因是:他们担心玩家可能会使用 ReBeL 在线扑克游戏中作弊。我们不都是这样吗。“骗子骰子”是一个不那么诱人的目标。

但是,这种灵活性的游戏人工智能还有很多其他应用。谷歌的人工智能在 AlphaGo 中使用时,可能已经在棋盘游戏中公开击败了最优秀的人类。但它也被用于管理英国国家卫生服务的数据,并提高谷歌服务器群的电气效率。

我们只需要拭目以待。如果卡内基梅隆大学的计算机科学系开始开着兰博基尼上班,那么我们就知道他们决定使用 ReBeL 作恶了。