阿里发布全新开源推理模型 QwQ-32B
阿里云通义千问官方公众号发文宣布,推出最新的推理模型 QwQ-32B。一款拥有 320 亿参数的模型,其性能可与具备 6710 亿参数(其中 370 亿被激活)的 DeepSeek-R1 媲美。
这一成果突显了将强化学习应用于经过大规模预训练的强大基础模型的有效性。此外,我们还在推理模型中集成了与 Agent 相关的能力,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。
我们希望我们的一点努力能够证明强大的基础模型叠加大规模强化学习也许是一条通往通用人工智能的可行之路。
QwQ-32B 在一系列基准测试中进行了评估,测试了数学推理、编程能力和通用能力。以下结果展示了 QwQ-32B 与其他领先模型的性能对比,包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原始的 DeepSeek-R1。
在测试数学能力的 AIME24 评测集上,以及评估代码能力的 LiveCodeBench 中,千问 QwQ-32B 表现与DeepSeek-R1相当,远胜于 o1-mini 及相同尺寸的R1 蒸馏模型;在由Meta首席科学家杨立昆领衔的“最难LLMs评测榜” LiveBench、谷歌等提出的指令遵循能力IFEval评测集、由加州大学伯克利分校等提出的评估准确调用函数或工具方面的BFCL测试中,千问 QwQ-32B 的得分均超越了 DeepSeek- R1。
大规模强化学习
开发团队在冷启动的基础上开展了大规模强化学习。在初始阶段,特别针对数学和编程任务进行了 RL 训练。与依赖传统的奖励模型(reward model)不同,其通过校验生成答案的正确性来为数学问题提供反馈,并通过代码执行服务器评估生成的代码是否成功通过测试用例来提供代码的反馈。
发现在 RL 扩展过程中,随着训练轮次的推进,这两个领域中的性能均表现出持续的提升。
在第一阶段的 RL 过后,开发人员增加了另一个针对通用能力的 RL。此阶段使用通用奖励模型和一些基于规则的验证器进行训练。发现,通过少量步骤的通用 RL,可以提升其他通用能力,同时在数学和编程任务上的性能没有显著下降。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
通用代码生成器正确的使用方法:电子表格(二)
通用代码生成器正确的使用方法:电子表格(二) AI 内的介绍材料将动词算子式通用代码生成器视为一种数据库中心的代码生成器,将数据库自动反射功能视为通用代码生成器的核心功能,这是错的。 动词算子式通用代码生成器是一种以电子表格中心的代码生成器。 通用代码生成器的最佳实践是:使用 SGS2 模版(Excel 模版)来生成代码。 电子表格的优势是: 精确表示所有的数据和元数据 直观 便于携带大量初始化数据 便于编辑 便于对数据人工处理 电子表格可以几个人按流程处理数据 可以脱离数据库服务器 可以方便地建立新的数据库 而数据库的不足之处是: 无法精确描述元数据 无法离线工作 不可以有两份数据 采用数据库产生哑数据的应用程序非常别扭 所以,通用代码生成器把电子表格作为代码生成的数据源是完全合理的。 以下才是通用代码生成器的最佳实践: 使用电子表格来构建通用代码生成器的模版 准备好初始化数据 如果初始化数据在数据库中,将数据库中的数据事先导入至 Excel 如有必要,可以使用非技术人员整理导出的数据 技术人员使用准备好的 SGS2 模版代码生成 使用模版向导生成界面,以便最后时刻调整配置 如果在原...
- 下一篇
Monica.im 发布 AI Agent 产品「Manus」
昨日,Manus AI 正式公布了其 Agent 产品「Manus」,宣称是全球第一款通用 Agent 产品。 官网:https://manus.im/ 据官方介绍,Manus 这个名字来自拉丁语,Mens et Manus,就是 mind and hand,即手脑并用。 Manus 可以解决各类复杂多变的任务,能够独立思考、规划并执行复杂任务,直接交付完整成果。比起 Claude 的 Computer use 等同样能操作多任务,或者能帮你点外卖订酒店的 Agent, Manus 可以覆盖更多领域和达成更高的执行质量。 官方公布的数据显示,在用于评估通用 AI 助手在解决现实世界问题方面的能力的 GAIA 基准测试中,Manus 在所有三个难度级别上都达到了 SOTA 水平。 为了确保结果的可重复性,Manus 使用与其正式版本完全一致的配置进行评测。此外,Manus 也在 Upwork、Fiverr 等平台上解决真实世界的问题,并在 Kaggle 竞赛中证明了自己的能力。 Manus 目前采用 Multiple Agent 架构,运行方式与此前 Anthropic 发布的 Comp...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- MySQL8.0.19开启GTID主从同步CentOS8
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- Red5直播服务器,属于Java语言的直播服务器
- Linux系统CentOS6、CentOS7手动修改IP地址
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2全家桶,快速入门学习开发网站教程
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长