阿里发布全新开源推理模型 QwQ-32B-低调大师

阿里发布全新开源推理模型 QwQ-32B

2025-03-06 607

阿里云通义千问官方公众号发文宣布，推出最新的推理模型 QwQ-32B。一款拥有 320 亿参数的模型，其性能可与具备 6710 亿参数（其中 370 亿被激活）的 DeepSeek-R1 媲美。

这一成果突显了将强化学习应用于经过大规模预训练的强大基础模型的有效性。此外，我们还在推理模型中集成了与 Agent 相关的能力，使其能够在使用工具的同时进行批判性思考，并根据环境反馈调整推理过程。

我们希望我们的一点努力能够证明强大的基础模型叠加大规模强化学习也许是一条通往通用人工智能的可行之路。

QwQ-32B 在一系列基准测试中进行了评估，测试了数学推理、编程能力和通用能力。以下结果展示了 QwQ-32B 与其他领先模型的性能对比，包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原始的 DeepSeek-R1。

在测试数学能力的 AIME24 评测集上，以及评估代码能力的 LiveCodeBench 中，千问 QwQ-32B 表现与DeepSeek-R1相当，远胜于 o1-mini 及相同尺寸的R1 蒸馏模型；在由Meta首席科学家杨立昆领衔的“最难LLMs评测榜” LiveBench、谷歌等提出的指令遵循能力IFEval评测集、由加州大学伯克利分校等提出的评估准确调用函数或工具方面的BFCL测试中，千问 QwQ-32B 的得分均超越了 DeepSeek- R1。

大规模强化学习

开发团队在冷启动的基础上开展了大规模强化学习。在初始阶段，特别针对数学和编程任务进行了 RL 训练。与依赖传统的奖励模型（reward model）不同，其通过校验生成答案的正确性来为数学问题提供反馈，并通过代码执行服务器评估生成的代码是否成功通过测试用例来提供代码的反馈。

发现在 RL 扩展过程中，随着训练轮次的推进，这两个领域中的性能均表现出持续的提升。

在第一阶段的 RL 过后，开发人员增加了另一个针对通用能力的 RL。此阶段使用通用奖励模型和一些基于规则的验证器进行训练。发现，通过少量步骤的通用 RL，可以提升其他通用能力，同时在数学和编程任务上的性能没有显著下降。

微信关注我们

原文链接：https://www.oschina.net/news/337189

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

通用代码生成器正确的使用方法：电子表格（二）

通用代码生成器正确的使用方法：电子表格（二） AI 内的介绍材料将动词算子式通用代码生成器视为一种数据库中心的代码生成器，将数据库自动反射功能视为通用代码生成器的核心功能，这是错的。动词算子式通用代码生成器是一种以电子表格中心的代码生成器。通用代码生成器的最佳实践是：使用 SGS2 模版（Excel 模版）来生成代码。电子表格的优势是：精确表示所有的数据和元数据直观便于携带大量初始化数据便于编辑便于对数据人工处理电子表格可以几个人按流程处理数据可以脱离数据库服务器可以方便地建立新的数据库而数据库的不足之处是：无法精确描述元数据无法离线工作不可以有两份数据采用数据库产生哑数据的应用程序非常别扭所以，通用代码生成器把电子表格作为代码生成的数据源是完全合理的。以下才是通用代码生成器的最佳实践：使用电子表格来构建通用代码生成器的模版准备好初始化数据如果初始化数据在数据库中，将数据库中的数据事先导入至 Excel 如有必要，可以使用非技术人员整理导出的数据技术人员使用准备好的 SGS2 模版代码生成使用模版向导生成界面，以便最后时刻调整配置如果在原...

2025-03-08

379

昨日，Manus AI 正式公布了其 Agent 产品「Manus」，宣称是全球第一款通用 Agent 产品。官网：https://manus.im/ 据官方介绍，Manus 这个名字来自拉丁语，Mens et Manus，就是 mind and hand，即手脑并用。 Manus 可以解决各类复杂多变的任务，能够独立思考、规划并执行复杂任务，直接交付完整成果。比起 Claude 的 Computer use 等同样能操作多任务，或者能帮你点外卖订酒店的 Agent， Manus 可以覆盖更多领域和达成更高的执行质量。官方公布的数据显示，在用于评估通用 AI 助手在解决现实世界问题方面的能力的 GAIA 基准测试中，Manus 在所有三个难度级别上都达到了 SOTA 水平。为了确保结果的可重复性，Manus 使用与其正式版本完全一致的配置进行评测。此外，Manus 也在 Upwork、Fiverr 等平台上解决真实世界的问题，并在 Kaggle 竞赛中证明了自己的能力。 Manus 目前采用 Multiple Agent 架构，运行方式与此前 Anthropic 发布的 Comp...

2025-03-06

272

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。