大模型基准测试 ITU 国际标准正式发布
国际电信联盟电信标准分局(ITU-T)于2025年3月正式发布ITU-T F.748.44 基础模型的评估标准:基准测试/ Assessment criteria for foundation models: Benchmark。
该项国际标准由中国信息通信研究院(简称“中国信通院”)牵头制定,规范了大模型基准测试的指标要求和测试方法。该标准旨在推动大模型基准测试体系架构形成国际共识,为大模型技术提供方和应用方提供高质量的能力评估依据,引导大模型技术及产业健康有序发展。
根据介绍,本次发布的国际标准基于当前产学研界500余项基准测试系统性研究,一方面确立了大模型基准测试的4项核心要素,包括测试维度(测试场景、测试能力、测试任务和测试指标)、测试数据集、测试方法和测试工具。
另一方面,针对通用场景的基础模型,提供了标准化的测试用例和范例流程,以支持企业规范开展大模型能力评估。
中国信通院人工智能研究所于2023年开始布局大模型基准测试研究,并于2023年底发布“方升”大模型基准测试体系,推出自适应动态测试方法,积累600万条数据集,构建FactTeting测试工具,支撑整个大模型测试过程的自动化实施。
自2024年以来,参照已发布的ITU大模型基准测试国际标准,对国内外标杆大模型以两个月为周期开展持续监测工作,包括OpenAI o1、DeepSeek R1、Gemini 2.5 Pro、Claude 3.7 Sonnet、Qwen2.5-Max、百度文心大模型X1等上百个测试模型,目前已发布大语言通用能力、推理能力、代码能力,多模态理解能力、文生图能力、文生视频能力等多个轮次的评测结果。
国际标准ITU-T F.748.44的发布是大模型测试领域的重要标准化成果,对推动技术创新和发展、引领行业发展趋势、促进国际合作与交流等方面具有重要意义。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
“开源 AI 分身” Second Me 重大更新:Docker 跨平台支持正式上线
Second Me 是一个完全开源的项目,致力于保护你的隐私,帮助每个人构建真正属于自己的、安全的、本地的 AI 身份。在这里,你完全掌握数据和智能的主权,仅在你授权下通过安全私密的方式加入网络,共享信息。 近日,Second Me 宣布推出首个重大更新:Docker 跨平台支持正式上线,让 Mac (Apple Silicon)、Windows 和 Linux 用户都能轻松一键部署。 此外还新增了标准 OpenAI 协议接口、MLX 本地高效训练能力,以及多项性能优化。 具体如下: 全平台 Docker 支持 Second Me 现已全面支持 Docker 部署,兼容 Mac(Apple Silicon)、Windows 及 Linux,让用户随时随地轻松部署。同时,Docker 版本也修复了 Apple Silicon 用户此前的环境依赖问题,带来更顺畅的体验。 OpenAI 协议接口 全新支持标准 OpenAI 协议接口,无缝接入 VS Code、Notion、ChatBox 等数百款主流 AI 应用。只需将这些 AI 应用的 API 地址指向本地 Second Me。 MLX ...
- 下一篇
挑战 Rust 和 Scala,这门新语言震惊德国开发者
原标题:MoonBit 语言的十大特性(MoonBit Language in 10 Features) 原文链接:https://medium.com/@hivemind_tech/moonbit-language-in-10-features-4dc41a3a1d6c作者:Ignacio丨德国科技公司 Hivemind 工程师 作为一名Scala开发者,我最近注意到Scala的市场在逐渐萎缩,这促使我探索其他具有类似特性的编程语言,例如支持函数式编程、高阶类型、高阶函数、泛型、运算符重载和领域建模等。 最近,我在 X(前称Twitter)上听说了MoonBit语言,并通过搜索了解了更多信息。MoonBit是一种AI原生的通用编程语言,由张宏波领导开发。 张宏波在编程语言开发方面有着丰富的经验,曾是 OCaml 的核心贡献者,ReScript的创建者,并在 Meta (前称 FaceBook)公司参与了 Flow 的开发。 MoonBit 由粤港澳大湾区数字经济学院(IDEA)开发,该机构致力于人工智能和数字经济领域的前沿研究和产业应用。 在其官方网站上,我发现MoonBit具有以下...
相关文章
文章评论
共有0条评论来说两句吧...