量化评估、算法拓展:强化学习研究的10大原则
【大咖・来了 第7期】10月24日晚8点观看《智能导购对话机器人实践》
大数据文摘出品
编译:蒋宝尚
今年9月份举办的深度学习Indaba2018峰会的干货确实不少,昨天文摘菌给大家整理了27位大咖关于自然语言处理的精彩问答。今天文摘菌再给大家整理一份关于强化学习的10个原则,不仅在强化学习中有用,在机器学习研究中也能够提供一些参考。
这10个原则是一位来自Insight数据分析研究中心的博士生Sebastian Ruder在参会期间对David Silver报告进行的整理,除了Ruder自己的解析外,也把他自己拍的照片分享了出来。
1. 评估推动进步
量化的评估才能推动进步。评估奖励的选择决定了进步的方向,要确保评估指标与目标密切相关,避免主观评价(例如人类学科)。还有一点,双Q学习优于单Q学习,因为后者能减少偏见。
2. 算法的可扩展性决定成功
算法如何扩展非常重要,要避免性能上限。深度学习非常棒,因为它可以有效地扩展,但是样本效率同样重要。
算法的可扩展性的表现取决于资源,而算法的可扩展性决定是否成功:那么给予更多资源,性能如何提高?值得一提的是,这里的资源指的是计算,内存或数据。
3. 通用性,即算法在其他任务上的表现非常重要
关键是要设计一系列具有挑战性的任务,即应该对不同的新任务进行评估。避免过度使用当前的任务。
4. 相信Agent的经验
不要依赖人类的专业知识,不要依赖于工程特征。在数据有限时,领域专业知识和归纳偏差非常重要。
一些任务可能看起来不太可能完成,但是,你确实能在其中学到很多经验。这种任务或者项目,通常满足这三点:
- 很难接受RL的核心问题。
- 是AI的核心问题
- 非常值得你去努力
5. 状态应该是主观的
应将状态建立为模型的状态,即RNN的隐藏状态,而不是根据环境定义。只有agent对世界的主观看法才是重要的。不要推理外部现实,因为达到的效果非常有限。
6. 控制流
Agent影响数据流和体验。Agent应该有能够访问控制环境的功能。重点不仅在于***化奖励,还在于建立对流的控制。
7. 价值函数塑造世界
价值函数有效地总结了当前和未来的状况。多值函数允许我们模拟世界的多个方面。可以帮助控制流。
8. 从想象的经验(imagined experience)中学习
接下来该怎样规划?同样的,RL算法可以从想象的经验(imagined experience)中学习,如Alphago中使用MCTS和值函数。
9. 利用函数逼近器
可以将算法复杂度揉进神经网络架构,甚至MCTS,分层控制等也可以用NN建模。然后要真正理解:我们从模型学到了什么。
10. 学会学习
必须精通元学习,然后,你可能不再需要手工设置网络架构,一切都是端到端学习。总而言之,神经网络要通过尽可能少的人工干预来处理事情。但是,归纳偏差应该仍然有用。
相关报道:
https://twitter.com/seb_ruder/status/1040235236284669952?utm_campaign=NLP%20News&utm_medium=email&utm_source=Revue%20newsletter
【本文是51CTO专栏机构大数据文摘的原创译文,微信公众号“大数据文摘( id: BigDataDigest)”】

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
程序员面试时这样介绍自己的项目经验,成功率能达到98.99%
【大咖・来了 第7期】10月24日晚8点观看《智能导购对话机器人实践》 假如去面试要问10个问题,那么至少5个问题会根据你所介绍的项目背景来问。 面试时7份靠能力,3份靠技能,而刚开始时的介绍项目又是技能中的重中之重,决定一次面试的成败,那么面试时如果介绍自己的项目呢? 1、在面试前准备项目描述 别害怕,因为面试官什么都不知道,面试官是人,不是神,拿到你的简历的时候,是没法核实你的项目细节的。更何况,你做的项目是以月为单位算的,而面试官最多用30分钟来从你的简历上了解你的项目经验,所以你对项目的熟悉程度要远远超过面试官,所以你一点也不用紧张。 如果你的工作经验比面试官还丰富的话,甚至还可以控制整个面试流程。 既然面试官无法了解你的底细,那么他们怎么来验证你的项目经验和技术?下面总结了一些常用的提问方式。 2、准备项目的各种细节 一般来说,在面试前,大家应当准备项目描述的说辞,自信些,因为这部分你说了算,流利些,因为你经过充分准备后,可以知道你要说些什么。一旦让面试官感觉你都说不上来,那么可信度就很低了。 不少人是拘泥于“项目里做了什么业务,以及代码实现的细节”,这就相当于把后继提问权直...
- 下一篇
Hacker News 12月招聘趋势:React已连续霸榜19个月
【大咖・来了 第7期】10月24日晚8点观看《智能导购对话机器人实践》 Hacker News 近日发布了2018年12月的招聘趋势榜,数据显示,React 在 2018 年一直保持着领先地位,如果再算上2017年的数据,React 已经连续 19 个月成为最吃香的技能。 而且从目前的走势来看,React 暂时没有能威胁其地位的同领域对手。Angular 正在走下坡路,Vue.js 仍在寻找爆发的契机,Ember 一直不温不火。 若单看编程语言,Python 有着和 React 相似的成绩,在2017年5月击败 JavaScript 后一直稳居冠军宝座。 Python JavaScript Java Go Ruby TypeScript C++ Scala C PHP 纵观 2018 全年数据,可以看到: TypeScript 迎来了大幅增长; Docker 和 Kubernetes 正在不断往前 10 靠近,这也代表着容器技术的逐渐流行; node.js 已成为***的后端 Web 技术; AWS 正主导云计算; GraphQL 超越了 REST。 更多趋势可查阅: https://...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS8安装Docker,最新的服务器搭配容器使用
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- Hadoop3单机部署,实现最简伪集群
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS关闭SELinux安全模块