谷歌AI在游戏中组队击败人类团队这一壮举到底有何意义？

新闻动态

2019-06-05

听说过“夺旗”吗？这是一个游戏，夏令营时，孩子们会在空地上玩；一些职业视频游戏玩家也会玩。不论是在现实世界玩还是在电脑上玩，“夺旗”都是一个团队游戏。两队人马对峙，都想夺走对方的旗帜，带回基地，并守卫自己的旗帜。想成为赢家需要团队合作，在防守与反击之间保持协调。

换句话说，夺旗需要高超的人类技巧。伦敦谷歌AI实验室的研究人员向我们证明，机器可以不断学习，掌握游戏，至少在虚拟世界可以做到。

谷歌AI在游戏中组队击败人类团队这一壮举到底有何意义？

谷歌AI研究人员发表论文称，它们已经开发出一套自动“代理”，在Quake III游戏内，它们可以玩“夺旗”游戏。代理可以组队对抗人类玩家，或者与代理团队对决。

谷歌旗下实验室DeepMind的研究人员Wojciech Czarnecki说：“它们可以适应拥有任意技能的队友。”

代理不断玩游戏，学了几千小时之后就能掌握一些特殊技巧，比如当一名团队成员即将夺到旗帜时，它们会冲向敌军基地。因为人类玩家都知道，当对方的旗帜被带回基地时，会有一面新的旗帜出现在对方基地，等着被夺取。

DeepMind正在开发AI，它可以玩复杂的3D视频游戏，比如Quake III、Dota 2、《星际争霸2》。许多人相信，如果AI能够在虚拟竞技场获得胜利，它也许能变成自动系统，用于现实世界。

例如，类似的技术可以用在仓库机器人身上，让机器人组队搬运货物，从一个地方运到另一个地方，或者帮助自动驾驶机器人穿过拥挤的车流。OpenAI研究人员Greg Brockman解释说：“游戏一直以来都是AI的评测基准。如果你不能解决游戏问题，就无法解决其它问题。”

不久之前，想开发一套AI系统，让它在Quake III之类的游戏中对抗人类，还是一件不可能的事。就在前几年，DeepMind、OpenAI及其它实验室取得明显进步，它们用到一种新的数学技术，也就是“增强学习”，有了这种技术，机器可以通过极端试错不断学习。

通过一次又一次的游戏，自动代理不断学习，理解到哪种策略能带来成功，哪种不能。当一名团队成员即将夺到旗帜，如果朝着敌军的基地冲锋能拿到更多点数，代理会将这种策略吸收进去。

谷歌AI在游戏中组队击败人类团队这一壮举到底有何意义？

正是凭借这一策略，2016年DeepMind开发的AI代理在围棋上击败人人类。第一称视频游戏更复杂一些，如果是两个团队对决，那就更复杂了。DeepMind的自动代理玩了大约45万回合的游戏，学着夺旗，相当于在几周的时间内训练了4年。最开始时，代理惨败。但它最终理解到了游戏的诀窍，比如当它们袭击敌军的基地时，何时应该追随队友前进。

DeepMind还在开发可以击败人类的《星际争霸2》代理，OpenAI研究人员也开发了一套可以玩Dota 2的代理。4月份，在Dota 2游戏中，5个代理组成团队，击败了5名人类顶尖高手组成的团队。

William Lee是一名职业Dota 2玩家，去年，他曾经与早期版本的AI系统对决，一对一玩游戏，当时AI并没有给William Lee留下深刻印象。后来代理不断学习，当William Lee以团队成员的身份与AI团队对决时，他为AI的表现感到震惊。William Lee说：“我原本以为，机器不可能以5对5的方式玩游戏，更别说赢了。所以我感到很惊讶。”

AI可以在游戏中战胜人类，这样的技术真的可以用来解决现实问题吗？佐治亚理工学院计算机系教授Mark Riedl认为，AI代理并没有真正协作，它们只是对游戏中发生的事迅速回应，并不是AI代理之间传递了信息，人类玩家会传递信息。

虽然AI的表现看起来像是协作，但它们之所以做到是因为AI深刻理解到游戏中正在发生什么事。

DeepMind研究人员Max Jaderberg说：“你如何定义团队合作，这不是我们想解决的问题。当一名代理坐在敌军基地里，等着旗帜出现，这种行为只有依赖团队成员才能实现。”

Riedl认为，游戏没有现实世界复杂，游戏里的3D环境是精心设计的，导航更容易，在Quake游戏中执行战略、追求协作更简单一些。

增强学习适合这样的游戏。在视频游戏中，成功的标准就是拿到更多点数。在夺旗游戏叶，夺取的旗帜越多，点越多。但在真实世界，成功不是用点数来衡量的，它有多种多样的衡量标准。

谷歌AI在游戏中组队击败人类团队这一壮举到底有何意义？

不过做一些简单任务还是可以的。OpenAI训练一只机器人手臂，让它操纵字母块。你让手臂展示字母A，它就会将A字母块展示给你看。谷歌也向我们演示，机器可以学着挑选随机物件，比如乒乓球、塑料香蕉，然后将它们扔到相隔一段距离的垃圾桶。类似的技术可以用在仓库。

想解决更复杂的问题，需要更强的计算力。OpenAI系统花了几个月时间学着玩Dota 2游戏，玩的时间累计超过45000年，它需要依赖几万颗计算机芯片才能完成。Brockman说，租赁这些芯片花了计算机几百万美元。

DeepMind和OpenAI能够承担高昂的成本，但是其它学术实验室、小机构承受不起。有人担心，少数财大气粗的实验室将会成为未来AI的统治者。

不过即使是大型实验室，恐怕也没有足够强的计算力可以驱动用于现实世界的技术。虽然AI可以在虚拟世界夺旗，击败人类，但在夏令营空地上，它们没有希望登场，至少短期之内看不到希望。

来源：极客网

上一篇: 影像医生组团向吴恩达学AI？北美放射学会举办首个针对医生的AI课程

下一篇: Al自主进化出“数字感”，是福还是祸？