大模型基准测试 ITU 国际标准正式发布-低调大师

大模型基准测试 ITU 国际标准正式发布

2025-04-11 489

国际电信联盟电信标准分局（ITU-T）于2025年3月正式发布ITU-T F.748.44 基础模型的评估标准：基准测试/ Assessment criteria for foundation models: Benchmark。

该项国际标准由中国信息通信研究院（简称“中国信通院”）牵头制定，规范了大模型基准测试的指标要求和测试方法。该标准旨在推动大模型基准测试体系架构形成国际共识，为大模型技术提供方和应用方提供高质量的能力评估依据，引导大模型技术及产业健康有序发展。

根据介绍，本次发布的国际标准基于当前产学研界500余项基准测试系统性研究，一方面确立了大模型基准测试的4项核心要素，包括测试维度（测试场景、测试能力、测试任务和测试指标）、测试数据集、测试方法和测试工具。

另一方面，针对通用场景的基础模型，提供了标准化的测试用例和范例流程，以支持企业规范开展大模型能力评估。

中国信通院人工智能研究所于2023年开始布局大模型基准测试研究，并于2023年底发布“方升”大模型基准测试体系，推出自适应动态测试方法，积累600万条数据集，构建FactTeting测试工具，支撑整个大模型测试过程的自动化实施。

自2024年以来，参照已发布的ITU大模型基准测试国际标准，对国内外标杆大模型以两个月为周期开展持续监测工作，包括OpenAI o1、DeepSeek R1、Gemini 2.5 Pro、Claude 3.7 Sonnet、Qwen2.5-Max、百度文心大模型X1等上百个测试模型，目前已发布大语言通用能力、推理能力、代码能力，多模态理解能力、文生图能力、文生视频能力等多个轮次的评测结果。

国际标准ITU-T F.748.44的发布是大模型测试领域的重要标准化成果，对推动技术创新和发展、引领行业发展趋势、促进国际合作与交流等方面具有重要意义。

微信关注我们

原文链接：https://www.oschina.net/news/343980

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

“开源 AI 分身” Second Me 重大更新：Docker 跨平台支持正式上线

Second Me 是一个完全开源的项目，致力于保护你的隐私，帮助每个人构建真正属于自己的、安全的、本地的 AI 身份。在这里，你完全掌握数据和智能的主权，仅在你授权下通过安全私密的方式加入网络，共享信息。近日，Second Me 宣布推出首个重大更新：Docker 跨平台支持正式上线，让 Mac (Apple Silicon)、Windows 和 Linux 用户都能轻松一键部署。此外还新增了标准 OpenAI 协议接口、MLX 本地高效训练能力，以及多项性能优化。具体如下：全平台 Docker 支持 Second Me 现已全面支持 Docker 部署，兼容 Mac（Apple Silicon）、Windows 及 Linux，让用户随时随地轻松部署。同时，Docker 版本也修复了 Apple Silicon 用户此前的环境依赖问题，带来更顺畅的体验。 OpenAI 协议接口全新支持标准 OpenAI 协议接口，无缝接入 VS Code、Notion、ChatBox 等数百款主流 AI 应用。只需将这些 AI 应用的 API 地址指向本地 Second Me。 MLX ...

2025-04-11

325

原标题：MoonBit 语言的十大特性（MoonBit Language in 10 Features）原文链接：https://medium.com/@hivemind_tech/moonbit-language-in-10-features-4dc41a3a1d6c作者：Ignacio丨德国科技公司 Hivemind 工程师作为一名Scala开发者，我最近注意到Scala的市场在逐渐萎缩，这促使我探索其他具有类似特性的编程语言，例如支持函数式编程、高阶类型、高阶函数、泛型、运算符重载和领域建模等。最近，我在 X（前称Twitter）上听说了MoonBit语言，并通过搜索了解了更多信息。MoonBit是一种AI原生的通用编程语言，由张宏波领导开发。张宏波在编程语言开发方面有着丰富的经验，曾是 OCaml 的核心贡献者，ReScript的创建者，并在 Meta （前称 FaceBook）公司参与了 Flow 的开发。 MoonBit 由粤港澳大湾区数字经济学院（IDEA）开发，该机构致力于人工智能和数字经济领域的前沿研究和产业应用。在其官方网站上，我发现MoonBit具有以下...

2025-04-11

274

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。