AI可以学习真实
2019-05-15 栏目:行业新闻 查看()
原标题:AI可以学习真实

DarioWünsch感到自信。来自德国莱比锡的这位28岁的年轻人即将成为第一个在快速视频游戏“星际争霸II”中接受人工智能程序AlphaStar的专业游戏玩家。 Wünsch一直专业玩“星际争霸II”,竞争对手命令外国舰队争夺领土近十年。他不可能失去这个对新加入的人工智能游戏玩家的五场比赛挑战。

甚至AlphaStar在位于伦敦的人工智能研究公司DeepMind的创建者,也就是Alphabet,Inc。的一部分,并不乐观结果。他们是一大批研究人员中的最新成员,他们试图建立一个可以处理星际争霸II令人眼花缭乱的复杂性的人工智能。到目前为止,还没有人创造出能够击败经验丰富的人类的系统ayers。

果然,当AlphaStar在12月12日对阵Wünsch时,人工智能似乎在第一场比赛开始时犯了一个致命错误:它忽略了在营地入口处建立一道保护屏障,允许Wünsch渗透并迅速挑选几个工人单位。有一分钟,看起来星际争霸II仍然是人类战胜机器的领域。但AlphaStar取得了胜利的回归,组建了一个顽强的罢工队伍,很快就浪费了Wünsch的防守。 AlphaStar 1,Wünsch0。

Wünsch摇了摇头。他只需要更多地关注防守。但是在第二轮比赛中,AlphaStar通过扣留攻击让这位职业选手感到惊讶,直到它积累了一支再次粉碎Wünsch部队的军队。三场比赛之后,AlphaStar以5比0的比分赢得了比赛,将Wünsch降级为由机器击败的小型但不断发展的世界级游戏玩家俱乐部。

研究人员长期以来一直将游戏作为AI智能的基准。 1997年,IBM的Deep Blue赢得了国际象棋冠军Garry Kasparov( SN:8/2/97,p.76 )的国际赞誉。在2016年,DeepMind的AlphaGo着名地击败了Go冠军Lee Sedol( SN:12/24/16,第28页)。

但是像国际象棋和围棋这样的基于棋盘的比赛只能推动AI至今。这些游戏仍然非常简单 - 玩家可以轮流看到每个棋子在棋盘上的位置。在制作能够应对现实世界歧义和快节奏互动的人工智能时,最有用的机器认知测试可能会在游戏中找到。迷恋虚拟世界。

建立可以打败人类玩家的AI游戏玩家不仅仅是一个虚荣的项目。哥本哈根IT大学的AI研究员Sebastian Risi说:“最终的想法是......将这些算法用于实际挑战。”例如,在总部位于旧金山的公司OpenAI训练了一个五人工作小组参加一个名为Dota 2的在线战斗游戏之后,程序员重新利用这些算法教导机器人手的五个手指以前所未有的灵巧操纵物体。研究人员在1月份在arXiv.org网上描述了这项工作。

使用最初开发的算法来帮助五个AI发挥作用游戏Dota 2,OpenAI研究人员建立了一个非常灵巧的机器人手。

[1][23] DeepMind的研究人员同样希望AlphaStar的设计能够为试图构建AI的研究人员提供信息,以处理长时间的相互作用,如模拟气候变化或理解对话的那些,这是一项特别困难的任务(

SN:3/2/19,第8页)。

目前,认可机构仍在努力解决的两件重要事情是:相互协调,不断将新知识应用于新形势。事实证明,星际争霸的世界是一种优秀的测试平台,可以让人工智能更加合作。为了试验使AI永远成为学习者的方法,研究人员正在使用另一种流行的视频游戏Minecraft。虽然人们可能会将屏幕时间用作对现实生活的娱乐分心,但虚拟挑战可能有助于AI挑选你掌握在现实世界中取得成功所必需的技能。

街机教育

人工智能可以在电子游戏中练习不同的技能,学习如何在现实世界中相处。例如,导航技术可以帮助搜索和救援机器人在艰难的地形中徘徊,知道如何管理许多工作人员的AI可以帮助管理公司。

游戏类型教授人工智能有用的技能世界

类型赛车第一人称射击开放世界实时战略[ 示例游戏导航×××x x x 快速反应 x x ]×协作××设定目标 x 创造力 [ 123] [ 队比赛当AlphaStar接手时Wünsch,AI像人类一样扮演星际争霸II:它像一个木偶操纵者一样完全控制着舰队中的所有角色。 Facebook人工智能研究的人工智能研究员Jakob Foerster表示,有许多现实世界的情况依赖于一个主脑AI来微观管理大量设备会变得难以处理。
Forza Motororsport,Real Racing 末日 我的世界,侠盗猎车手 星际争霸[ 123]
[123 ]管理资源/工作人员
x 情节策略
x [123 ]
× 探索
× x 终身学习
x 动机
x x 杂耍优先事项[
x x

想想监督数十个护理机器人在整个医院照顾病人,或者自动驾驶卡车协调他们在数英里的高速公路上的速度,以缓解交通瓶颈。因此,包括Foerster在内的研究人员正在使用星际争霸游戏来尝试不同的“多智能体”计划。 在某些设计中,个别战斗单位有一定的独立性,但仍然受到中央集团的支持。控制器。在这个设置中,监督AI就像一个教练在场边喊叫。教练制定了一个重要的计划并向团队成员发出指示。各个单位使用该指导以及对周围环境的详细观察来决定如何采取行动。中国北京大学的计算机科学家王益洲及其同事在提交给

IEEE神经网络和学习系统交易

的论文中报告了这种设计的有效性。

Wang的小组培训了他的AI团队星际争霸使用强化学习,这是一种机器学习,其中计算机系统通过与环境交互来获取技能,并在做正确的事情后获得虚拟奖励。每个队友都获得了基于t的奖励他附近消灭的敌人数量以及整个队伍是否胜过由游戏内置的自动对手控制的舰队。在由至少10个战斗单位组成的团队的几个不同挑战中,教练指导的AI团队赢得了60%到82%的时间。没有独立推理能力的中央控制的AI团队对内置对手的成功不太成功。

AI团队中只有一名指挥官,对个别单位施加至少一些控制权可能最有效依靠所有代理商之间快速,准确的沟通。例如,这个系统可以用于同一个仓库内的机器人。

在视频游戏“星际争霸II”的这个片段中,专业的StarCr船尾II玩家DarioWünsch,扮演“LiquidTLO”,被人工智能AlphaStar所压倒,这对Wünsch的基地造成了严重破坏。当AI显示其优势时,人工智能在DeepMind的创作者欢呼。当AlphaStar击败他时,Wünsch大踏步前进,5场比赛为0. DeepMind AI监督员通过提供个性化的准备让个人AI自给自足培训期间的建议。在每次试运行之后,监督员模拟替代可能的未来,并告诉每个代理人,“这就是实际发生的事情,如果其他人都做了同样的事情就会发生这种情况,但你做了不同的事情。”这种方法,福斯特的团队于2018年2月在新奥尔良举行的AAAI人工智能会议上发表演讲,帮助每个AI单位判断哪些行动有助于或阻碍小组的成功。
但是对于许多机器,例如自驾车或无人机群,分布在很远的地方,单独的设备“不会与单个控制器保持一致,可靠和快速的数据连接,”Foerster说。这是每个AI本身。在这些限制下工作的AI通常不能像集中团队一样协调,但Foerster及其同事设计了一个培训计划,以准备独立思考的机器一起工作。

在这个系统中,集中观察者在强化学习期间向队友提供反馈。但是,一旦该小组接受了全面培训,AI就会独立完成。主要代理人不像是一名边线教练,更像是在排练期间提供芭蕾舞女演员指导的舞蹈教练,但在舞台表演期间保持沉默。

为了测试这个框架,Foerster及其同事在星际争霸中训练了三组五个AI单位。受过训练的单位必须仅根据对周围环境的观察来行动。在由内置的非人类对手指挥的相同球队的战斗回合中,所有三个AI组都赢得了他们的大部分回合,在相同的战斗场景中表现出三个中央控制的AI团队。

[123终身学习

程序员在星际争霸和星际争霸II中测试的AI培训类型旨在帮助AI团队掌握单一任务,例如协调交通信号灯或无人机。星际争霸游戏非常棒,因为对于所有移动部件,比赛相当简单:每个球员都有一个压倒对手的单一目标。但是,如果人工智能变得更加多样化和人性化,程序需要能够学习更多知识并不断学习新技能。

“我们现在看到的所有系统都是玩Go和国际象棋 - 他们“基本上已经接受过训练,可以很好地完成这项任务,然后将它们修好,这样它们就无法改变,”里斯说。 Risi说,一个带有18×18网格的Go-playing系统,而不是标准的19×19游戏板,可能必须在新的主板上完全重新训练。改变星际争霸单位的特征需要进行相同的背对一训练。类似乐高的Minecraft领域是一个更好的测试方法o使AI更具适应性。

与“星际争霸”不同,“我的世界”不会对玩家完成任何单一任务。在这个由三维灰尘,玻璃和其他材料组成的虚拟世界中,玩家可以收集资源来建造结构,旅行,寻找食物,并做其他任何他们喜欢的事情。总部位于旧金山的软件公司Salesforce的人工智能研究员Caiming Xiong和同事们在Minecraft中使用了一个简单的建筑物来测试一个旨在不断学习的人工智能。

而不是指定人工智能来学习通过在强化学习中反复试验的单一任务,熊的团队错开了人工智能的教育。研究人员指导AI通过越来越困难的强化学习挑战,fr找到堆积块的特定块。人工智能旨在将每个挑战分解为更简单的步骤。它可以使用旧的专业知识解决每一步或尝试新的东西。与另一个没有使用先前知识来传达新学习经验的人工智能相比,熊团队的人工智能证明了更快的研究。

知识积累的人工智能在适应新情况方面也更好。熊和同事告诉两个AI如何拾取块。在一个只包含一个街区的简单房间内进行培训时,两个AI都获得了“收集项目”技能。但是在一个有多个街区的房间里,离散任务AI努力识别它的目标,并且只有29%的时间抓住了正确的区块。快速上升

一个Minecraft玩我认为知道如何运用过去的知识来学习新技能(深绿色),更快地学会如何成功地完成新技能。与不依赖于旧专业知识(浅绿色)的人工智能相比,它在尝试中获得的奖励高达1.0。

有和没有过去知识的人工智能学习

29

] AI无法使用先前知识在Minecraft中获取正确区块的成功率

94

[123基于先前知识的人工智能的成功率,以获取Minecraft中的正确块

资料来源:T。Shu,C。Xiong和R. Socher / 6th Internat。 CONF。学习表征2018

知识积累的AI知道依赖于先前的l获得“查找项目”技能,以在分心中找到目标对象。它在94%的时间内获得了正确的阻止。该研究于2018年5月在温哥华举行的国际学习代表大会上发表。 经过进一步的培训,熊和同事的系统可以掌握更多的技能。但是这种设计受到以下事实的限制:AI只能学习人类程序员在训练期间分配的任务。人类没有这种教育截止。当人们完成学业时,“不喜欢,”现在你已经完成了学习。 Risi说,你可以冻结你的大脑。

一个更好的人工智能将在游戏和模拟中获得基础教育,然后能够在其整个生命周期中继续学习,机器人专家Priyam Parashar说道。加州大学圣地亚哥分校。例如,如果居民安装婴儿门或重新安排家具,家用机器人应该能够找到导航工作区。 Parashar及其同事创建了一个人工智能,可以识别需要进一步培训而无需人工的情况输入。当人工智能遇到新的障碍时,它会评估环境与预期的不同。然后它可以在精神上排练各种解决方案,想象每个解决方案的结果并选择最佳解决方案。

研究人员在一个两室的Minecraft建筑中用AI测试了这个系统。人工智能已经接受过培训,可以从第二个房间找回金块。但是另一个Minecraft玩家在房间之间的门口建造了一个玻璃屏障,阻止了AI收集金块。人工智能评估了这种情况,并通过强化学习,弄清楚如何粉碎玻璃以完成其任务,Parashar和她的同事在2018年报道

知识工程评论

AI面临Parashar承认,意想不到的婴儿门或玻璃墙可能不会得出最好的解决办法。但她说,程序员可以为AI的心理模拟添加额外的约束 - 比如不应该破坏有价值或拥有的对象的知识 - 来告知系统的学习。

新的视频游戏一直在成为AI测试床。纽约大学的人工智能和游戏研究员Julian Togelius及其同事希望在Overc中测试合作AIooked - 一个团队烹饪游戏,发生在一个紧凑,拥挤的厨房里,玩家经常互相进入。 “游戏旨在挑战人类的思想,”Togelius说。任何视频游戏本质上都是一个现成的测试,可以测试AI知识如何模仿人类的聪明才智。

但是当谈到在视频游戏或其他模拟世界中测试AI时,“你永远不能说,'好吧,我已经模拟了现实世界中发生的一切,'”Parashar说。弥合虚拟和物理现实之间的差距将需要更多的研究。

她建议,一种让模拟训练的人工智能免于过度扩张的方法是设计需要AI在需要时向人们寻求帮助的系统(

] SN:3/2/19,第8页

本文刊登于2019年5月11日的

科学新闻

,标题为“AI at at游戏:当电脑在游戏桌上占据一席之地时,他们会学习真实世界的技能。“


* /

分享给小伙伴们:
本文标签:
扫二维码与项目经理沟通

我们在微信上24小时期待你的声音

解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流

郑重申明:AB模版网工作室以外的任何单位或个人,不得使用该案例作为工作成功展示!