您现在的位置是:首页 > 文章详情

清华大学与蚂蚁集团发布异步强化学习训练平台 AReaL-boba²

日期:2025-06-06点击:34

清华大学与蚂蚁集团InclusionAI团队联合发布了一款名为AReaL-boba²的异步强化学习(RL)训练平台。该平台专为大型语言模型设计,与传统的同步强化学习训练方法相比,它能在保持相似训练结果的同时,大幅缩短训练时间。

这得益于AReaL中实现的“版本感知”算法,该算法使得异步训练成为可能,并简化了多轮次智能体任务的强化学习过程。

AReaL-boba²最大的亮点是完全解耦了模型生成与训练,实现了不间断的流式数据生成和并行训练。在效果不变的前提下,其训练速度达到了上一版本的2.77倍。研究团队还在Qwen3系列模型的基础上,使用AReaL-boba²进行强化学习训练,并将相关模型开源。

在多项编程领域权威基准测试上,强化学习后的8B和14B参数模型,实现了同尺寸模型中的SOTA水准。

目前该项目的端到端代码、数据集以及一个业界领先的编码模型已完全开源。

开源地址:https://github.com/inclusionAI/AReaL/

论文链接:https://arxiv.org/pdf/2505.24298

SOTA模型下载链接:https://huggingface.co/collections/inclusionAI/areal-boba-2-683f0e819ccb7bb2e1b2f2d5

原文链接:https://www.oschina.net/news/353929
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章