您现在的位置是:首页 > 文章详情

强化学习快餐教程(3) - 一条命令搞定atari游戏

日期:2019-10-08点击:384

强化学习快餐教程(3) - 一条命令搞定atari游戏

通过上节的例子,我们试验出来,就算是像cartpole这样让一个杆子不倒这样的小模型,都不是特别容易搞定的。

那么像太空入侵者这么复杂的问题,建模都建不出来,算法该怎么写?

别急,我们从强化学习的基础来讲起,学习马尔可夫决策过程,了解贝尔曼方程、最优值函数、最优策略及其求解。然后学习动态规划法、蒙特卡洛法、时间差分法、值函数近似法、策略梯度法。再然后我们借用深度学习的武器来武装强化学习算法,我们会学习DQN算法族,讲解2013版的基于Replay Memory的DQN算法,还有2015年增加了Target网络的新DQN算法,还有Double DQN、优先级回放DQN和Dueling DQN,以及PG算法族的DPG,Actor-Critic,DDPG,以及A3C算法等等。

有的同学表示

原文链接:https://yq.aliyun.com/articles/720209
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章