澳门十大信誉平台网站_在具备挑战性的环境中,一些人工智能系统通过利用过去经验所获取的世界表象来实现目标。研究人员将这些应用于推展到新的情况,使它们需要在以前未曾遇上过的环境中已完成任务。
事实证明,增强自学——一种用于奖励来推展软件策略朝着目标行进的训练技术——尤其合适自学一个总结agent经验的世界模型,并通过拓展来增进新的不道德的自学。消息,近日,来自Google、Alphabet子公司DeepMind和多伦多大学的研究人员公开发表了一篇取名为《梦想掌控:通过潜意识的自学不道德》的新研究,他们研发了一个增强型自学智能体Dreamer,通过内化一个世界模型,并通过通过潜在的“想象力”来提早计划自由选择行动。他们说道,Dreamer不仅限于于任何自学目标,而且在数据效率、计算出来时间以及最后性能方面都多达了现有的方法。
在它的整个生命周期中,无论是交叠还是分段,Dreamer都会自学一个latent dynamics model(潜在动力学模型),以预测澳门十大信誉平台网站动作和仔细观察结果的报酬。在这种情况下,“latent dynamics model”是所指从图像输出中自学并继续执行计划以搜集新经验的模型。
“潜在”回应它依赖隐蔽状态或潜在状态的灵活序列,这使它需要自学更加多抽象化的回应形式,例如对象的方位和速度。用于编码器组件,有效地将来自输出图像的信息构建到隐蔽状态中,然后及时地将隐蔽状态向前投影以预测图像和奖励。
上图:Dreamer已完成一个转动钟摆的任务。中间表明45步预测Dreamer用于了一个多部分的latent dynamics model,这个模型的结构有些简单。“回应”位对仔细观察和动作展开编码,而“过渡性”位则在没看见不会引发仔细观察的情况下意识到状态。
第三个组件(奖励组件)根据等价的模型状态来投影奖励,而不道德模型将实行自学的策略并目的预测可解决问题想象的环境的不道德。最后,价值模型评估行动模型构建的预期想象奖励,而仔细观察模型获取对系统信号。上图:梦想家在迷宫中导航系统。
中间表明45步预测。了解到,在一系列实验中,研究人员测试了Dreamer在DeepMind Control Suite中的20个视觉掌控任务上的效果,DeepMind Control Suite是一种用作评估机器学习驱动的代理的建模软件。
他们首先用于Nvidia V100图形芯片和10个处理器内核来训练它,每次培训运营一次。他们说道,掌控套件上每106个环境步骤花费了9个小时。(相比之下,Google的Dreamer前身PlaNet花上了17个小时才超过了类似于的性能。
)上图:梦想家在玩Atari游戏(摔跤)。中间表明45步预测。研究人员报告说道,Dreamer有效地利用了自学的世界模型来从少量经验中展开总结,并且它的顺利证明了,通过潜在的想象力展开的自学不道德可以比不上顶级方法。
他们还说道,Dreamer的价值模型即使在短期计划中也展现出较好,在20个任务中的16个(有4个打成平手)上展现出高于其他模型。研究人员写到:“未来,关于密切相关自学的研究可能会将潜在的想象力扩展到视觉复杂性更高的环境中,”研究人员计划在本周温哥华的NeurIPS 2019上展出他们的工作。Dreamer项目的代码可在GitHub上公开发表取得。(公众号:)原创文章,予以许可禁令刊登。
下文闻刊登须知。_澳门十大信誉平台网站。
本文来源:澳门十大信誉平台网站-www.valuesofgray.com
下一篇:返回列表
原标题 弗格森腊得很好,为何埃弗顿还要中选安帅当主教练?...
2020-11-041999阅读全文 >>Brian Segrave兼任酒店总经理中国内地首家W酒店广州W酒店,将于2013年年初开业的。...
2020-12-092275阅读全文 >>如何网上订房 网上订房现沦为一种时尚,如何网上订房,有可能对于有些人来说还不是那么明晰,那么如何网上订房呢?首先指定官方网站→自由选择酒店→填上信息→递交订单→在线缴纳→查收短信→所持短信及个人有效证件转入酒店,才可住进。...
2020-12-012620阅读全文 >>2月12日,中建集团在京开会党组会议,专题学习秉持习近平总书记在北京调研指导新型冠状病毒肺炎疫情防控工作时的重要讲话精神,并就公司停工始产后疫情防控、生产经营工作展开再行研究再行部署。...
2020-11-242460阅读全文 >>8月18日,国外媒体报道,《华尔街日报》消息,根据市场调研机构Counterpoint的近期报告,中兴智能手机第二季度美国市场的份额为11.5%,低于第一季度的10.1%。...
2020-10-261194阅读全文 >>原标题 路在何方?遭到苦主绝平再行扔2分 米兰兴起任重道远本轮和亚特兰大的比赛,对红黑军团来说堪称遇上了苦主。...
2020-11-2090阅读全文 >>【澳门十大信誉平台网站】谷歌新智能体Dreamer将亮相NeurIPS2019,数据效率比前身PlaNet快8个小时
2018年,微软都经历了什么?|澳门官方网站平台
京东IPO的相关数据汇总:澳门十大信誉平台网站
澳门十大信誉平台网站-微信应用号,小程序开发教程第三弹
骁龙1000更多细节泄露:Cortex-A76架构功耗12瓦,性能媲美IntelSkylake-U-澳门官方网站平台
【澳门十大信誉平台网站】看“洪荒少女”傅园慧都爱上的“趣游泳”如何撬动游泳产业