中国信通院发布“方升”大模型基准测试体系

2023年12月24日,中国信息通信研究院(简称“中国信通院”)发布“方升”大模型评测体系,旨在建立业界大模型基准测试统一的“度量衡”。“方升”测试体系涵盖大模型基准测试的关键四要素,即测试指标、测试方法、测试数据集和测试工具,目前已形成《大规模预训练模型基准测试-总体技术要求》标准。

测试指标方面,“方升”测试体系主要针对行业、应用、通用和安全四个维度对大模型进行全面、客观、统一的评估,为了加速大模型应用落地,重点强化了行业和应用导向能力的考查。

在测试方法方面,“方升”测试体系创新性提出自适应动态测试方法,从测试数据标签化、测试题库实时化、测试方案定制化、测试流程自动化四个方面全面提升大模型基准测试质量,重点解决大模型“刷榜”问题。

测试数据方面,方升”测试体系搭建动态测试数据库,涵盖测试数据集107个,测试数据条数达到123万,联合产业界多家机构首次推出面向行业、通用、应用、安全领域的评测数据集6个。

测试框架与工具方面,中国信通院在构建超自动化测试平台和智能化结果评估系统方面持续发力,探索解决国内外人工智能自动化测试流程中存在的“阻塞点”,全面提高测试效率。

“方升”大模型基准测试体系由中国信通院联合北京智源研究院、认知智能全国重点实验室和天津大学共同发布。此外,国网智能电网研究院、首都之窗、天津大学、中国电信研究院、中国联通软件研究院、华为、甲骨易、海天瑞声、东方财富9家单位成为“方升”大模型基准测试首批合作伙伴。

优秀的个人博客,低调大师

微信关注我们

原文链接:https://www.oschina.net/news/273067

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

相关文章

发表评论

资源下载

更多资源
优质分享Android(本站安卓app)

优质分享Android(本站安卓app)

近一个月的开发和优化,本站点的第一个app全新上线。该app采用极致压缩,本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Oracle Database,又名Oracle RDBMS

Oracle Database,又名Oracle RDBMS

Oracle Database,又名Oracle RDBMS,或简称Oracle。是甲骨文公司的一款关系数据库管理系统。它是在数据库领域一直处于领先地位的产品。可以说Oracle数据库系统是目前世界上流行的关系数据库管理系统,系统可移植性好、使用方便、功能强,适用于各类大、中、小、微机环境。它是一种高效率、可靠性好的、适应高吞吐量的数据库方案。

Apache Tomcat7、8、9(Java Web服务器)

Apache Tomcat7、8、9(Java Web服务器)

Tomcat是Apache 软件基金会(Apache Software Foundation)的Jakarta 项目中的一个核心项目,由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定,而且免费,因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可,成为目前比较流行的Web 应用服务器。

Eclipse(集成开发环境)

Eclipse(集成开发环境)

Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。幸运的是,Eclipse 附带了一个标准的插件集,包括Java开发工具(Java Development Kit,JDK)。