大模型谁最“可靠”?SuperCLUE-CPIF测评出炉,文心X1.1国内第一
10月21日,中文精确指令遵循测评基准(SuperCLUE-CPIF)正式发布,文心X1.1以75.51分位居国产大模型第一,在任务类型、指令数量两类划分中均为国内榜首,文心X1.1在实际生产环境中应用具有显著优势。
本次测评涵盖GPT-5(high)、DeepSeek-V3.2-Exp-Thinking、Claude-Sonnet-4.5-Reasoning、Gemini-2.5-Pro等共10个国内外模型参与。基于实际生产环境特点,SuperCLUE-CPIF重点评估大型语言模型(LLM)在中文环境下的精确遵循复杂、多约束指令能力,重点评估模型将自然语言指令转化为符合所有要求的具体输出的能力。
测评结果显示,国产主流大模型中,文心X1.1以75.51分位居国产大模型第一,DeepSeek-V3.2-Exp-Thinking和Hunyuan-T1-20250822分别以73.98分和65.82分位居国内二、三。
SuperCLUE-CPIF中文精确指令遵循测评总榜,文心X1.1位居国内第一
文心大模型X1是基于文心大模型4.5训练而来的深度思考模型,升级后的X1.1主要采用了迭代式混合强化学习训练框架,一方面通过混合强化学习,同时提升通用任务和智能体任务的效果;另一方面通过自蒸馏数据的迭代式生产及训练,不断提升模型整体效果。
据了解,文心大模型X1.1在处理复杂写作任务时,既能运用模型内化的知识、调用联网搜索工具等准确查找用户需要的知识,又能深度思考用户希望创意写作的立意和要求,最后输出事实准确,结构化、逻辑性强,并且文辞优美的内容。
例如在更复杂的长程任务场景,文心大模型 X1.1在面对共享单车平台不同等级用户,不同类型问题的处理流程,以及用户的不同情绪状态多元素叠加的问题时,能够严格遵循业务流程先后规划、再自主调用工具,并结合用户情绪,短时内解决了问题,服务过程完整主动。
作为国内最早投入大模型产研的企业,百度依托“芯片-框架-模型-应用”的全栈自研体系,持续推动文心大模型能力进化。得益于飞桨文心的联合优化,文心大模型的能力拓展和效率提升。据早前公开报道,相比文心大模型X1,文心X1.1的事实性提升34.8%,指令遵循提升12.5%,智能体提升9.6%。
 关注公众号
关注公众号
					低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 
							
								
								    上一篇
								      华为发布“全球顶尖 AI 人才招募令”,打造世界一流 AI 战队@华为招聘官微发布“全球顶尖 AI 人才招募令”,目标明确为打造世界一流的 AI 战队,构建领先世界的大模型,攀登 AGI 的巅峰。 华为常务董事、终端 BG 董事长余承东也转发了该条微博:“胸怀王者气,共攀最高峰!欢迎年轻、优秀、热爱 AI 的你加入我们,一起打造世界最强的 AI!” 在华为招聘发布的信息中,其对求职者有三点要求:学术先锋、技术热情、创新思维。即需要求职者成绩优异,具备扎实的数理功底与持续的学习能力,或拥有重量级科研成果 / 论文 / 专利,或曾在国际顶级竞赛获奖等,还需要对人工智能领域怀揣坚定的技术信仰与热忱,有志于成为技术领军人物。且勇于创新突破,精于洞察,穿透技术本质并愿意付诸实践。 而在待遇方面,华为招聘表示,将提供行业内具有竞争力的薪酬。此外,华为还将为入职者提供攻克全球前沿 AI 技术难题、参与打造世界领先大模型项目的机会,并有机会与图灵奖、菲尔兹奖获得者共事。华为还将提供充足的算力,供入职者自由调度。 此外,华为招聘表示此次招募的对象为 2026/1/1-2026/12/31 毕业的国内高校本科生与硕士研究生、2025/1/1-2026/12/31 毕业... 
- 
							
								
								    下一篇
								      微软 Edge 新策略:在访问 AI 应用时推介 Copilot微软正在通过其 Edge 浏览器采取一种新策略,试图吸引用户使用其 AI 工具 Copilot。当用户在 Edge 浏览器中访问像 ChatGPT、DeepSeek 和 Perplexity 等 AI 应用时,Edge 会在地址栏右侧弹出一个小标签,提醒用户尝试微软的 Copilot。 用户只需点击这个小标签,Copilot 便会在浏览器的侧边栏以分栏形式打开,方便用户进行提问或上传文件。这一措施的推出似乎是微软有意针对上述三款 AI 应用,而在访问 Claude 或 Gemini 时则不会出现类似提示。 根据市场调查机构的统计,Copilot AI 网页版在消费者市场的份额相对较低,仅为2%。而如果考虑 Windows、Microsoft365及 Edge 中整体的 Copilot 使用情况,市场份额则会显著提高。 
相关文章
文章评论
共有0条评论来说两句吧...

 
			
 
				 
				 
				 
				 
				 
				 
				



 微信收款码
微信收款码 支付宝收款码
支付宝收款码