第三代AI赌神诞生:可在六人桌德扑中胜过5个人类顶尖高手
第50届世界扑克系列赛(WSOP)的六人桌无限德扑即将在7月13日开赛,但AI偏偏选在这个节骨眼上踢馆。
美国卡内基梅隆大学和Facebook公司7月12日在《科学》上发表论文称,他们联合开发的德扑人工智能Pluribus能在六人桌无限德扑中击败顶级人类玩家。
这些顶级高手包括拥有职业冠军头衔最多的达尔文?埃利亚斯(Darren Elias)、6次世界扑克系列赛冠军得主“耶稣”克里斯?弗格森(Chris Ferguson)和在职业生涯中赚了将近200万美元的麦克?加利亚诺(Michael “Gags” Gagliano)。
无论是一个Pluribus对战5个顶级人类玩家,还是五个Pluribus混战一个顶级人类玩家,经过1万手牌后,它的表现都会明显优于人类。
“Pluribus”是一个拉丁语词汇,意为“众”,美国国徽上就印有“E pluribus unum”(合众为一)的字样。起这个名字,无疑彰显这是世界上首个在多人德扑中超越人类专业选手的AI。
在过去的20年里,我们见证了西洋双陆棋、跳棋、国际象棋和围棋等游戏在人工智能面前纷纷沦陷。人机大战往往成为AI发展史上的里程碑事件,例如卡斯帕罗夫与“深蓝”、李世石与“阿尔法狗”的巅峰对弈。不过,这些事件无一例外局限于机器和一人对决,而扑克在传统上是个多人游戏。
从两人到多人,不仅只是量变,还对人工智能增加了许多根本性的挑战。Pluribus通过“行动抽象”和“信息抽象”等方式来解决这些挑战。在与5个“自己”博弈的过程中,Pluribus学会了六人局无限注德扑的玩法。
埃利亚斯的感受是,德扑AI最大的优势在于混合运用多种策略,这也是人类高手想要达到的境界。然而,绝大数人都无法持续性地随机调整策略。
Pluribus也验证了一些牌桌上广为流传的智慧。例如“平跟”(limping)这种在翻牌之前,选择跟平大盲注而不加注的策略对绝大多数玩家而言都是欠佳的选择,只有“小盲注”玩家除外,因其已经在池中下了等同于一半大盲注的筹码。
初出茅庐的“平跟”
美国卡内基梅隆大学计算机系教授托马斯?桑德霍姆(TuomasSandholm)已经钻研德扑程序16年。为了缔造AI赌神,他带着博士生诺姆?布朗(Noam Brown)先从1V1无限注德扑做起。他们开发的第一款德扑程序名为Claudico,在拉丁语中对应着“平跟”。
2015年4月到5月,Claudico在匹兹堡的河流赌场轮流与包括当时世界排名第一的道格?波尔克(Doug Polk)在内的四名人类顶尖高手过招。那次比赛历时13天,共计2万局牌。为降低运气成分,比赛使用的是镜像牌局的玩法,即在不同房间的两张牌桌上使用完全相同、但人机对调的两副牌。
初出茅庐的德扑AI在赛程过半时,就已落后人类约46万个筹码,最终以大约73万个筹码的劣势铩羽而归。
扑克对于AI来说为什么这么难?原来,扑克和跳棋、国际象棋和围棋有本质上的区别,是一种“不完美信息”的游戏,对手手中的牌面全程未知。在无限注局中,对手又可以任意下注。
著名深度学习专家吴恩达(Andrew Ng)曾说道,“扑克是人工智能最难攻克的游戏之一。每一步没有所谓的最优解,人工智能要采取随机的策略,这样它诈唬的时候对方才会吃不准。”
诈唬(bluff)是德州扑克的一种经典策略,它生动地体现了扑克游戏的“心理博弈”特征:即在手上的牌不够大的时候,依然虚张声势地加注,以吓退对手。为了达到好的诈唬效果,玩家的下注策略需要具备足够的随机性,以避免被对手摸清套路。总是诈唬的人和从不诈唬的人都不是一个好的德扑玩家。
从这个意义上来说,扑克是一种更接近真实人类社会的游戏,涉及到推理和欺骗。人工智能能学会诈唬吗?
卷土重来的“均衡”
IBM的“深蓝”经过了两次才战胜国际象棋传奇卡斯帕罗夫,德扑AI也在2年后实现了完美复仇。2017年1月,桑德霍姆和布朗带着一个名为Libratus的德扑程序卷土重来。
这个新名字对应着“均衡”,从纳什均衡的博弈模型里脱胎而来。桑德霍姆解释说:“在两名玩家的零和游戏中,如果双方都遵从纳什均衡,那就无人能以独自改变策略的方式来获益。在此类游戏中,以纳什均衡的方式思考是最安全的。AI会严格遵从纳什均衡,保证一个起码是平局的局面,若对手计算失误,均衡被打破,AI就能一击必杀。”
学会了纳什均衡的Libratus善于诈唬及不被诈唬。比如其中一盘,人类高中Jason Lee起手牌是一对10(非梅花),前三张公共牌为K、9、4(其中有两张梅花),第四张和第五张都开出了非梅花牌。此时,AI突然压上所有筹码,Lee选择不跟。通过隔壁的镜像局,我们发现AI当时的起手牌确实是两张梅花,也就是,AI最后在赌同花失败的情况下,成功通过诈唬赢下了一局。而在镜像局中,AI早早为手上一对10下了重注,最后人类玩家同样选择弃牌。
同样是匹兹堡的河流赌场,同样是无限注德扑,人机大战的剧情截然不同。Libratus从比赛第一天就全面压制,一路领先。最终,Libratus赢得的筹码数量达到惊人的176.6万美元。
此后还有一个小插曲。李开复曾经邀请桑德霍姆带着Libratus前来中国举办表演赛,并取了一个中文名“冷扑大师”。
统筹全局的“众”
纳什均衡虽然对双人游戏很有利,但并不适用于多人游戏。Pluribus需要一种更为统筹全局的玩法。它首先通过6个“自己”混战,计算出了一种“蓝图”策略,足以应对首轮的下注。接着,它建立起一个精细度非常高的游戏沙盘,分析所有可能的走法。为了节省算力,Pluribus不会推演到终盘,而只是推演接下去的数步。
这看上去是游戏类AI的常规路径,但在非完美信息游戏中进行前瞻性推演格外具有挑战性。在每一个决策点的分叉上,AI要考虑每个对手的可能举动,也要分析自己可采取的应对,形成的决策树就会十分庞大。不过,桑德霍姆团队这次开发出了一种新算法,保证AI只需要计算每个对手接下去的5种可能性,就能在大战略上形成制衡。
Pluribus也变得更加狡猾。如果手上持有场上可能有的最好的牌,那加注是一个理性的选择。但如果每次都在持有好牌时才加注,就可能被对手识破规律。Pluribus会计算在对手来看,自己手上所有可能有的牌型,以及与之相对应的表现,最终选定一种均衡的方案。
最后,Pluribus也在计算效率上进行了改进。前一代Libratus用了1500万个核心小时计算出策略,并在1V1现场对决中占用了1400个CPU核数。这一代的Pluribus仅用12400个核心小时就形成蓝图策略,并在现场博弈时占用28个CPU核数。
麦克?加利亚诺(Michael “Gags” Gagliano)说道:“与德扑AI对战,观察它做选择的策略是非常令人激动的。我看到它做了一些人类根本不会去做的下注举动。”
布朗认为,Pluribus的许多创新性的大法可能会在根本上改变这项游戏。例如,绝大多数人类玩家都不会在一个回合末平跟,却在下一回合开始时加注。传统上认为这是一种没有任何战略意义的举动。但是,Pluribus经常会这么做,也许这背后有值得深思的地方。

- 外资垄断75%!海上风电变压器受制于人,国家能源安全底线不容失守2026-03-11 14:14
- 初高中生成绩不理想考不上理想的学校怎么办、如何根据自身优势择校?2026-03-05 15:21
- 恒基兆业地产集团庆祝成立50周年,深耕内地共谱新章2026-02-04 13:16
- 南京先进制造产业专项母基金公布子基金遴选结果2026-01-19 17:41
- 40万债权击穿10亿资产酒企?徽酒集团双轮酒业二次破产背后的博弈2026-01-08 17:22
- 南京市创投集团合作子基金投资企业壁仞科技成功登陆港交所2026-01-07 19:40
- 「山谷奇技,声乐造艺」 全新宝珀北京王府中環旗舰店盛大启航2025-12-30 10:57
- 宝珀“大音乐家-四音四锤双旋律大小自鸣”超复杂功能腕表2025-12-30 10:57
- 南京先进制造产业专项母基金子基金遴选结果揭晓2025-12-29 18:57
- 兑现“好房子”承诺:解读九牧的“场景答案”2025-12-29 12:32

- 17:20通辽圣达教育:11 年深耕,零滑档零退档,本地高报标杆
- 17:12通辽圣达教育:全职师资 + 零失误,让高考志愿填报更稳妥
- 17:02通辽圣达教育:零滑档零退档,让每一分都不被辜负
- 17:00通辽圣达教育,靠谱志愿填报首选--深耕本土,用心护航升学路
- 15:33易萃享:数智科技赋能羊城家庭,成为全民健康守护优选品牌
- 15:42易萃享:立足华南本土市场,铸就区域精准营养行业新标杆
- 09:23东方药林:厚植企业文化,以创新精神赋能企业可持续发展
- 09:11易萃享健康:打造全周期健康体系,担当贴心家庭健康管家
- 09:09易萃享健康:破除专业壁垒,推动全民健康管理普惠化发展
- 22:57易萃享:深耕精准营养赛道,匠心研发重塑国民营养补充方式
- 22:55东方药林:六大战略协同发力,构建全维度产业发展生态
- 22:50易萃享:借力 AI 科技赋能,让科学精准养生融入日常点滴
- 22:42东方药林药业有限公司:深耕东南亚市场,探索民族品牌出海新路径
- 16:16广东康力医药有限公司:创新赋能全域发展,向着全球健康领航者奋勇前行
- 16:09东方药林:多元数字营销,解锁大健康经营新玩法
- 16:20广东康力医药有限公司:荣誉加身不忘初心,标杆力量助推产业提质升级
- 16:12东方药林:精研产品体系,以品质筑牢抗衰产业根基
- 16:42东方药林药业有限公司:数字赋能转型,凝聚企业精神奔赴全球新征程
- 16:16广东康力医药:以使命凝心聚力,三十年坚守诠释企业责任
- 18:09东方药林药业有限公司:秉持长期主义,稳步推进全球化市场布局
- 17:54广东康力医药:立足本土放眼全球,打造走向世界的中国健康名片
- 14:15从KS到CES Asia:纵深视觉科技全栈方案引爆光场显示市场
- 10:32康力医药:聚焦大众健康需求,打造一体化全链条服务生态
- 09:38华创农食相融,筑牢乡村粮食安全屏障
- 09:23东方药林小毛巾:天然竹琨选材,打造洗护好产品
- 14:52华创聚力创新,引领智慧人居新潮流
- 14:50康力医药:扎根行业三十载,书写民族健康品牌成长答卷
- 14:30东方药林:布局长远战略,绘就抗衰事业发展新图景
- 16:55东方药林:聚焦抗衰赛道,创新驱动企业高质量发展
- 10:27当行业需要“判断者”:张红梅以专业视角参与宠物科技领域重要评审工作



