Meta 推出 SPICE 框架,让 AI 系统自我学习推理能力

Meta 的人工智能研究团队与新加坡国立大学合作开发了一种名为 “自我对弈环境中的自我提升”(SPICE)的新型强化学习框架。该框架通过让两个 AI 代理相互对抗,创造自我提升的挑战,使其在没有人类监督的情况下逐渐提高能力。目前,这一框架仍处于概念验证阶段,但有望为未来能够动态适应环境的 AI 系统奠定基础,从而在面对现实世界的不可预测性时更加稳健。

自我提升 AI 的目标是让系统通过与环境的互动来增强自身能力。传统方法通常依赖于人类策划的问题集和奖励机制,这使得扩展变得困难。而自我对弈的方式让模型通过相互竞争来实现提升。然而,现有自我对弈方法在语言模型上的应用受到一些限制,如生成问题和答案中的事实错误相互叠加,导致 “幻觉” 现象。此外,当问题生成者和解答者共享相同知识库时,无法生成新挑战,容易陷入重复模式。

SPICE 框架采用一种创新的自我对弈机制,其中一个模型承担两个角色:“挑战者” 构建来自大量文档的困难问题,而 “推理者” 则尝试在没有访问源文档的情况下解决这些问题。这种设置打破了信息对称,使得推理者无法使用挑战者用来生成问题的知识,进而减少错误的发生。

这种对抗性动态创造了一个自动化的课程,挑战者会因生成多样且恰好位于推理者能力边界的难题而获奖,而推理者则因正确回答而获奖。这种互惠的互动促进了两个角色的共同成长,推动他们不断发现并克服新的挑战。由于该系统利用的是原始文档,而非预定义的问题 - 答案对,因而可以生成多种任务格式,适用于不同领域,打破了以往方法在特定领域的局限。

研究人员对多个基础模型进行评估,发现 SPICE 在数学和一般推理任务中表现出色,超过了其他基线模型。这一发现表明,通过基于语料库的自我对弈所培养的推理能力能够有效迁移到不同模型上,预示着自我提升推理方法的新时代。

优秀的个人博客,低调大师

微信关注我们

原文链接:https://www.oschina.net/news/383045

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

相关文章

发表评论

资源下载

更多资源
Mario,低调大师唯一一个Java游戏作品

Mario,低调大师唯一一个Java游戏作品

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

Apache Tomcat7、8、9(Java Web服务器)

Apache Tomcat7、8、9(Java Web服务器)

Tomcat是Apache 软件基金会(Apache Software Foundation)的Jakarta 项目中的一个核心项目,由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定,而且免费,因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可,成为目前比较流行的Web 应用服务器。

Eclipse(集成开发环境)

Eclipse(集成开发环境)

Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。幸运的是,Eclipse 附带了一个标准的插件集,包括Java开发工具(Java Development Kit,JDK)。

Java Development Kit(Java开发工具)

Java Development Kit(Java开发工具)

JDK是 Java 语言的软件开发工具包,主要用于移动设备、嵌入式设备上的java应用程序。JDK是整个java开发的核心,它包含了JAVA的运行环境(JVM+Java系统类库)和JAVA工具。