AlphaGo Zero横空出世,DeepMind Nature论文解密不使用人类知识掌握围棋
今年5月乌镇围棋大赛时,DeepMind CEO Hassabis 表示,将在今年晚些时候公布战胜了柯洁的那版AlphaGo的技术细节。今天,这个承诺如约兑现,DeepMind在他们最新发表于Nature的一篇论文中,描述了迄今最强大的一版AlphaGo—— AlphaGo Zero 的技术细节。
AlphaGo Zero完全不依赖于人类数据,因此,这一系统的成功也是朝向人工智能研究长期以来的目标——创造出在没有人类输入的条件下,在最具挑战性的领域实现超越人类能力的算法——迈进的一大步。
作者在论文中写道,AlphaGo Zero 证明了即使在最具挑战的领域,纯强化学习的方法也是完全可行的:不需要人类的样例或指导,不提供基本规则以外的任何领域知识,使用强化学习能够实现超越人类的水平。此外,纯强化学习方法只花费额外很少的训练时间,但相比