清华大学与蚂蚁集团发布异步强化学习训练平台 AReaL-boba²
清华大学与蚂蚁集团InclusionAI团队联合发布了一款名为AReaL-boba²的异步强化学习(RL)训练平台。该平台专为大型语言模型设计,与传统的同步强化学习训练方法相比,它能在保持相似训练结果的同时,大幅缩短训练时间。
这得益于AReaL中实现的“版本感知”算法,该算法使得异步训练成为可能,并简化了多轮次智能体任务的强化学习过程。
AReaL-boba²最大的亮点是完全解耦了模型生成与训练,实现了不间断的流式数据生成和并行训练。在效果不变的前提下,其训练速度达到了上一版本的2.77倍。研究团队还在Qwen3系列模型的基础上,使用AReaL-boba²进行强化学习训练,并将相关模型开源。
在多项编程领域权威基准测试上,强化学习后的8B和14B参数模型,实现了同尺寸模型中的SOTA水准。
目前该项目的端到端代码、数据集以及一个业界领先的编码模型已完全开源。
开源地址:https://github.com/inclusionAI/AReaL/
论文链接:https://arxiv.org/pdf/2505.24298
SOTA模型下载链接:https://huggingface.co/collections/inclusionAI/areal-boba-2-683f0e819ccb7bb2e1b2f2d5

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
OpenAI「宫斗戏」将被改编成电影
据媒体报道,亚马逊米高梅影业正在筹备一部聚焦OpenAI高层震荡事件的电影,暂命名为《Artificial》。电影将重现2023年11月那场震惊科技界的"五日政变"——创始人兼CEO山姆·奥特曼突遭董事会解雇,又在员工集体抗议下戏剧性复职的全过程。 影片计划今年夏日在美国旧金山和意大利开拍。主演团队方面,安德鲁·加菲尔德、莫妮卡·巴巴罗、尤拉·鲍里索夫正在为主演角色进行商谈。 值得玩味的是,曾担任《周六夜现场》编剧的西蒙·里奇加盟剧本创作,暗示这部作品或将用黑色幽默的笔触,解构这场融合了权力博弈、理想主义碰撞的科技界"宫斗"。 当时董事会以"沟通不坦诚"为由罢免奥特曼,却引发700名员工联名威胁辞职,最终在微软等资本方介入下,这场闹剧以奥特曼回归收场。现实中的戏剧张力,已然为电影提供了最精彩的剧本蓝本。
- 下一篇
花旗上海、大连 IT 部门裁员 3500 人,补偿金最高达“N+6”
2025年6月5日,花旗集团宣布精简其位于上海和大连的全球技术解决中心,裁员约3500名技术人员,同时影响约500名第三方人员,预计2025年四季度完成调整。 据媒体报道,被裁员工在2025年6月25日前签署协商解除协议,公司将支付“N+6”作为离职补偿金,N为过去12个月月平均收入乘以在花旗的服务年限,月平均收入和服务年限均无封顶,加6部分基数为2025年5月基本工资。 6月26日—7月16日签约,公司将支付“N+3”作为离职补偿金;7月17日—9月19日签约,公司将支付“N+1”作为离职补偿金。 花旗称,此番调整旨在帮助技术和业务支持部门推动精简运营的整体战略,包括简化组织架构,降低依赖第三方机构提供的人员和缩减软件数量规模等。该调整已被涵盖在花旗2025年度的财务计划当中。 在此次调整之外,花旗位于广州的全球技术解决中心—花旗金融信息服务(中国)有限公司广州分公司不受影响。 花旗称,花旗金融信息服务(中国)有限公司为花旗在全球的业务提供相关IT服务(软件技术开发、测试与维护)和运营服务。一些岗位将不再保留,另一些岗位将整合迁移到花旗全球网络的其他技术解决中心,以贴近所支持的业务与...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- MySQL8.0.19开启GTID主从同步CentOS8
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- CentOS7设置SWAP分区,小内存服务器的救世主
- SpringBoot2全家桶,快速入门学习开发网站教程
- SpringBoot2整合Redis,开启缓存,提高访问速度
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS8编译安装MySQL8.0.19