强化学习十大原则
原则#1:评估(Evaluation)推动进步 客观,量化的评估推动了进步: ●评估指标的选择决定了进度的方向 ●可以说是项目过程中最重要的单一决策 排行榜驱动的(Leaderboard-driven)研究: ●确保评估指标对应最终目标 ●避免主观评估(例如人工检查) 假设驱动的(Hypothesis-driven)研究: ●提出一个假设: ○“Double-Q学习优于Q-learning,因为它减少了向上偏差(upward bias)” ●在广泛的条件下验证假设 ●比较相似的现有stat-of-the-art技术 ●寻求理解而不是排行榜绩效 原则#2:可伸缩性(Scalability)决定成功 ●算法的可伸缩性是其相对于资源的性能梯度 ○给定更多资源,性能如何提高? ●资源可以是计算(computation),内存(memory)或数据(data) ●算法的可扩展性最终决定了它的成功与否 ○图像 ●可伸缩性始终(最终)比起点更重要 ●给定无限资源,(最终)优化算法是最佳的 原则#3:通用性(Generality)未来证明算法 ●不同的RL环境中,算法的通用性表现不同 ●避免过度拟合当...
