基于TensorFlow打造强化学习API:TensorForce是怎样炼成的?
本文将围绕一个实际的问题进行介绍:应用强化学习的社区可以如何从对脚本和单个案例的收集更进一步,实现一个强化学习API——一个用于强化学习的tf-learn或skikit-learn?在讨论TensorForce框架之前,我们将谈一谈启发了这个项目的观察和思想。如果你只想了解这个API,你可以跳过这一部分。我们要强调一下:这篇文章并不包含对深度强化学习本身的介绍,也没有提出什么新模型或谈论最新的最佳算法,因此对于纯研究者来说,这篇文章可能并不会那么有趣。 开发动机 假设你是计算机系统、自然语言处理或其它应用领域的研究者,你一定对强化学习有一些基本的了解,并且有兴趣将深度强化学习(deepRL)用来控制你的系统的某些方面。 对深度强化学习、DQN、vanilla策略梯度、A3C等介绍文章已经有很多了,比如Karpathy的文章(http://karpathy.github.io/2016/05/31/rl/)对策略梯度方法背后的直观思想就进行了很好的描述。另外,你也能找到很多可以帮助上手的代码,比如OpenAI上手智能体(https://github.com/openai/baseline...