实战深度强化学习DQN-理论和实践
本文来自云栖社区官方钉群“Python技术进阶”,了解相关信息可以关注“Python技术进阶”。
1、Q-learning回顾
Q-learning 的 算法过程如下图所示:
在Q-learning中,我们维护一张Q值表,表的维数为:状态数S * 动作数A,表中每个数代表在当前状态S下可以采用动作A可以获得的未来收益的折现和。我们不断的迭代我们的Q值表使其最终收敛,然后根据Q值表我们就可以在每个状态下选取一个最优策略。
Q值表的更新公式为:
公式中,Q(S,A) 我们可以称做Q估计值,即我们当前估计的Q值,而:
称为Q-target,即我们使用贝尔曼方程加贪心策略认为实际应该得到的奖励,我们的目标就是使我们的Q值不断的接近Q-target值。
2、深度Q网络(Deep - Q - Network)
2.1 DQN简介
为什么会出现DQN呢
在普通的Q


