您现在的位置是:首页 > 文章详情

昆仑万维开源 7B 和 32B 最强数学代码推理模型,同规模下性能超越 QwQ-32B

日期:2025-04-14点击:46

昆仑万维天工团队宣布推出全新升级的Skywork-OR1(Open Reasoner 1)系列模型。

该系列在同等参数规模下实现了业界领先的推理性能,进一步突破了大模型在逻辑理解与复杂任务求解方面的能力瓶颈。同时,Skywork-OR1全面开放、免费使用,以完全开源的形式回馈开发者社区,坚定践行天工团队在推动AI技术发展上的开源路线。

此次开源涵盖三款高性能模型,包括:

  • Skywork-OR1-Math-7B:聚焦数学领域的专项模型,同时也具有较强的代码能力。
  • Skywork-OR1-7B-Preview:融合数学与代码能力、兼具通用性与专业性的通用模型。
  • Skywork-OR1-32B-Preview:面向更高复杂度任务、具备更强推理能力的旗舰版本。

公告称,此次发布的Skywork-OR1系列采用业界最高透明度的开源策略:不同于其他前沿开源推理模型仅开放模型权重,项目团队全面开源了模型权重、训练数据集和完整训练代码。

配套的技术博客已发布于Notion平台,详细阐述了数据处理流程、训练方法和关键技术发现,为社区提供了完全可复现的实践参考。

昆仑万维方面表示,目前Skywork-OR1-7B和Skywork-OR1-32B的能力还在持续提升,预计将在两周内发布两个模型的正式版本,同时推出更为系统详尽的技术报告,进一步分享其在推理模型训练中的经验与洞察。“我们相信,这种全方位的开源策略将有助于推动整个AI社区在推理能力研究上的共同进步。”

在数学推理任务中:

  1. 通用模型Skywork-OR1-7B-PreviewSkywork-OR1-32B-Preview在AIME24与AIME25数据集上均实现了同参数规模下的最优表现,展现出强大的数学推理能力。

  2. 针对数学场景深度优化的专项模型Skywork-OR1-Math-7B更是在AIME24和AIME25上分别取得69.852.3的高分,远超当前主流7B级别模型,充分验证了其在高阶数学推理任务中的专业优势。

  3. Skywork-OR1-32B-Preview在所有benchmark上均实现了对QwQ-32B的超越,并在更难的AIME25上基本与R1持平。

在竞赛编程任务中:

  1. 通用模型Skywork-OR1-7B-PreviewSkywork-OR1-32B-PreviewLiveCodeBench数据集上均取得了同等参数规模下的最优性能。

  2. Skywork-OR1-32B-Preview表现尤为突出,其代码生成与问题求解能力已接近DeepSeek-R1(参数规模高达671B),在大幅压缩模型体量的同时实现了卓越的性价比,充分展现出天工团队训练策略的先进性。

其中Skywork-OR1-Math-7B表现尤为亮眼,作为一个专注于数学推理能力的7B参数模型,通过多阶段GRPO训练在复杂数学问题上实现了卓越表现,同时在代码任务上也有较强的泛化能力。下图是该模型在AIME24上的训练准确率曲线:

Skywork-OR1-Math-7B最终模型在AIME24和AIME24上分别达到69.8%和52.3%,超越了OpenAI-o3-mini (low),达到了当前尺寸SOTA性能。值得注意的是,尽管该模型训练过程中未专门针对代码能力进行优化,但在代码评测基准上Livecodebench从37.6%提升到43.6%,相比基线模型的显著提升。

原文链接:https://www.oschina.net/news/344417
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章