重庆分公司,新征程启航
为企业提供网站建设、域名注册、服务器等服务
Google开源TensorFlow强化学习框架示例分析,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。
十载的广西网站建设经验,针对设计、前端、开发、售后、文案、推广等六对一服务,响应快,48小时及时工作处理。全网营销推广的优势是能够根据用户设备显示端的尺寸不同,自动调整广西建站的显示方式,使网站能够适用不同显示终端,在浏览器中调整网站的宽度,无论在任何一种浏览器上浏览网站,都能展现优雅布局与设计,从而大程度地提升浏览体验。创新互联从事“广西网站设计”,“广西网站推广”以来,每个客户项目都认真落实执行。谷歌宣布开源基于 TensorFlow 的强化学习框架——Dopamine。
强化学习是一种人工智能(AI)技术,它使用奖励(或惩罚)来驱动agent朝着特定目标前进,比如之前大火的Alpha Go击败人类顶尖围棋选手,还有在 Dota2 对战人类职业玩家的Open AI Five。同时,强化学习也是DeepMind 的深度Q 网络(DQN)的核心部分,可以在多个workers 中分配学习,例如,在Atari 2600游戏中实现“超人”性能。麻烦的是,强化学习框架需要时间来掌握一个目标,往往是不灵活的,也不够稳定。
这就是谷歌提出替代方案的原因:基于TensorFlow的开源强化学习框架——Dopamine,从今天开始,它可以从Github获得。
(https://github.com/google/dopamine/tree/master/docs#downloads)
谷歌研究人员表示,他们开源的这个 TensorFlow 强化学习框架强调三点:灵活、稳定和可重复性。
受到主要组件之一大脑中奖励动机行为行为的启发,以及反映神经科学和强化学习的研究之间的联系,这个平台的目的是使推测性研究推动根本性的发现,此版本还包括一组阐明如何使用整个框架的colabs。
易用性
为此,它包括了一套精心编写的代码(15个Python文件),专注于Arcade学习环境(一个用视频游戏评估AI技术的平台)以及四种不同的机器学习模型:上述提到的深度Q 网络(DQN); C51; Rainbow agent的一个简化版本; Implicit Quantile Network agent。清晰和简洁是这个框架设计中的两个关键考虑因素。
可重复性
为了实现强化学习的可重复性,代码在Arcade学习环境支持的60个游戏中提供完整的测试覆盖率和训练数据(采用JSON和Python pickle格式),并遵循标准化结果以进行实证评估的最佳实践。
基准测试
对于新的研究者来说,对自己的想法进行快速的基准测试是非常重要的。谷歌提供四个智能体的完整训练数据,包括ALE 支持的60 个游戏,格式为Python pickle 文件(对于使用谷歌框架训练的智能体)和JSON 数据文件(用于对比其他框架训练的智能体)。谷歌还提供了一个网站,研究者可以使用该网站对所有提供智能体在所有60 个游戏中的训练运行进行快速可视化。
谷歌的4 个智能体在Seaquest 上的训练运行(Seaquest 是ALE 支持的Atari
除此之外,谷歌还推出了一个网站,允许开发人员将多个训练中智能体的运行情况快速可视化。它还提供经过训练的模型、原始统计日志和TensorFlow event files,用于TensorBoard动态图的绘制,TensorBoard是一个web应用可视化套件。
“我们的希望是,我们的框架的灵活性和易用性将使研究人员能够尝试新的思想,无论是渐进的还是激进的。”
看完上述内容是否对您有帮助呢?如果还想对相关知识有进一步的了解或阅读更多相关文章,请关注创新互联-成都网站建设公司行业资讯频道,感谢您对创新互联的支持。