谷歌旗下人工智能部门 DeepMind 开发的人工智能(AI)程序 “AlphaStar”(阿尔法星际)今日凌晨挑战《星际争霸 2》游戏。结果是:名为 “AlphaStar” 的人工智能在与两位人类职业选手 “TLO” 和 “MANA” 的比赛中,均以 5 比 0 取胜。这给了职业电竞界一次不小的暴击。这项人工智能挑战是在 2016 年的暴雪嘉年华开幕式上所宣布,由 DeepMind 和暴雪共同开发的,前者曾开发出了击败世界围棋第一人柯洁等人的阿尔法狗。

AlphaStar 跟 AlphaGo 有些类似,最开始都是通过学习人类选手的 Replay(比赛录像)来提升水平。直播中展示的 10 场比赛都是在一张相同的比赛地图上进行,而且都是神族内战。人工智能的 APM(每分钟操作的次数)限制在与人类选手相仿的程度。

相比于之前 AlphaGo 擅长的 “完全信息博弈” 的围棋,《星际争霸》显然是一个拥有更多不确定因素的游戏。在围棋对弈时,AI 可以看清楚棋盘上的每一个位置,然后依靠自己比人脑强大无数倍的计算能力,衡量每一步落子所带来的收益,然后确定最优的方案。这种能力是人脑再开发到极限也是无法实现的。

而在游戏中,AI 的这种优势其实并无太多用武之地。熟悉 RTS(即时战略)游戏的玩家应该都了解 “战争迷雾” 这种机制。AI 并没有 “作弊” 读取正在进行中的游戏的内存数据的话,它是无法得知玩家现阶段在布置何种战术,因此也就无法提前做出 “最优判断”。而这种判断对于 RTS 的获胜来说才是至关重要的。即使 AI 洞悉了玩家的战术,他也未必能即时做出改变,甚至有可能被玩家 “虚晃一枪”。比方说当玩家的基地被发现,玩家可以选择停止所有建筑计划。

AI 在信息对等的情况下,临机应变的能力不如人类,星际需要玩家对资源控制,升级先后顺序,不同种族和兵种相互克制等方面有整体的认识。这种互相牵制的效果,即是游戏平衡性的由来。这方面的整体考虑远比下围棋时只考虑黑子和白子的位置更加复杂。考虑到人工智能在 APM 手速和精确微操方面优势明显,这可能成为另外一个能决定比赛最终结果的重要因素。不过正如暴雪和 DeepMind 团队强调过,未来的人工智能并不会拥有非人类的逆天操作,他们将会通过限制人工智能的 APM 来保证它的操作,也会有类似人类的极限和失误。