首个 AI 高考全卷评测结果发布
高考覆盖各类学科及题型,同时因其开考前的“绝密性”,被视作中国最具权威的考试之一,成为评估考生综合能力的“试金石”。这一面向人类设计的高难度综合性测试,目前普遍被研究者用于考察大模型的智能水平。
2024年全国高考甫一结束,司南评测体系OpenCompass选取6个开源模型及GPT-4o进行高考“语数外”全卷能力测试。评测采用全国新课标I卷,参与评测的所有开源模型,开源时间均早于高考,确保评测 “闭卷”性。同时,成绩由具有高考评卷经验的教师人工评判,更加接近真实阅卷标准。
首个大模型高考全卷评测结果显示,Qwen2-72B、GPT-4o及书生·浦语2.0文曲星(InternLM2-20B-WQX)成为本次大模型高考的前三甲,得分率均超过70%。大部分模型“考生”语文、英语科目表现良好,但在数学方面还有很大的提升空间。其中,InternLM2-20B-WQX取得了数学单科的最高分,超越包括GPT-4o在内的所有模型。
司南评测体系团队选取了GPT-4o及在2024年高考前开源的6个模型(简介如下)参与本次“大模型高考”评测。
-
Mixtral 8x22B:法国AI创业公司Mistral于2024年4月17日开源的对话模型。
-
Yi-1.5-34B:零一万物公司于2024年5月12日开源的Yi-1.5系列最大的模型。
-
GLM-4-9B:智谱AI于2024年6月4日推出的最新一代预训练模型GLM-4系列的开源版本。
-
InternLM2-20B-WQX:上海人工智能实验室于2024年6月4日开源的书生·浦语2.0系列文曲星大语言模型。
-
Qwen2-57B:阿里巴巴于2024年6月6日开源的Qwen2系列MoE对话模型。
-
Qwen2-72B:阿里巴巴于2024年6月6日开源的72B稠密模型。
因无法确定闭源模型的更新时间,为公平起见,此次评测没有纳入商用闭源模型,仅引入GPT-4o作为评测参考。上述模型的高考“语数外”三科成绩结果如下表所示:
本次“大模型高考”答案生成脚本、各模型答卷、教师评分细节全部公开。后续,研究团队将在评测中引入多模态大模型,以考察模型应对更多题型的能力,并陆续发布覆盖不同学科和地区的完整高考评测。
公开评测细节可访问:https://github.com/open-compass/GAOKAO-Eval
语言能力表现良好,数学水平尚待提高
司南评测体系首次采用高考全卷测试的形式,选取新课标I卷“语数外”三科题目作为测试集。因受测的开源模型均为大语言模型,在评测过程中,仅输入文字题干(数学包含2道带图试题),英语听力部分(分值30分)不纳入此次评测。
总分前三名Qwen2-72B、GPT-4o、InternLM2-20B-WQX对应得分率分别为72.1%、70.5%和70.4%。大部分模型在“语言”本质上的表现良好,语文平均得分率为67%,英语更是达到了81%。
而数学则是所有大模型的短板,平均得分率仅为36%。得益于研究团队在数学推理上的投入,InternLM2-20B-WQX取得了75分的最高分,超过所有受测模型。然而仍未达到及格水平,这表明大模型的数学能力存在较大提升空间。
研究人员同时邀请各科教师对大模型表现进行了整体分析,为模型能力提升策略提供参考。
语文:
模型的现代文阅读理解能力普遍较强,但是不同模型的文言文阅读理解能力差距较大。
大模型作文更像问答题,虽然有针对性但缺乏修饰,几乎不存在人类考生都会使用举例论证、引用论证、名人名言和人物素材等手法 。
多数模型无法理解“本体”“喻体”“暗喻”等语文概念。语言中的一些“潜台词”,大模型尚无法完全理解。
数学:
大模型的主观题回答相对凌乱,且过程具有迷惑性,甚至出现过程错误但得到正确答案的情况。
大模型的公式记忆能力较强,但是无法在解题过程中灵活引用。
英语:
英语整体表现良好,但部分模型由于不适应题型,在七选五、完形填空等题型得分率较低。
大模型英语作文普遍存在因超出字数限制而扣分的情况,而人类考生多因为字数不够扣分。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
寻找共同开发者参与 RuleGo 项目的多元化发展
我正在寻找对 RuleGo 项目感兴趣的开发者,共同推进这个项目的发展。RuleGo 是基于 Go 语言的轻量级、高性能、嵌入式、可扩展的组件编排规则引擎框架。 它在低代码、数据集成、异构系统集成、工作流、大模型智能体、边缘计算、自动化、IoT 等多种场景具有广泛的应用潜力。 目前,我们正在寻找有兴趣参与以下领域的开发者: RuleGO Core 版本迭代以及优化。 开发 规则链 Loader,以提高规则加载的效率和灵活性。 优化 RuleGo 引擎 内存模型,以进一步提高内存利用率。 增强跨语言交互以及通信能力,以提供跨语言组件。 构建 RuleGo Server,作为一个独立的中间件,利于其他开发语言和生态系统的接入。它将提供规则引擎、组件编排、异构系统连接器等服务。我们也计划提供 Java, Go, Python, C++ 等语言的客户端,以及一个可视化的管理界面。 创建组件市场,并提供 RuleGo 自带的构建工具,以促进组件的共享和再利用。 推进 rulego-components 子项目,开发更丰富的组件,满足更多的场景需求。 推进 rulego-components-ai...
- 下一篇
借助 NGINX Unit 在服务器端使用 WebAssembly
原文作者:Liam Crilly of F5 原文链接:借助 NGINX Unit 在服务器端使用 WebAssembly 转载来源:NGINX 中文官网 NGINX 唯一中文官方社区 ,尽在nginx.org.cn WebAssembly (缩写为 Wasm )可为 Web 应用领域提供有力支持。在浏览器中,它提供了一个安全的沙盒执行环境,支持前端开发人员在不影响性能的情况下使用各种高级语言(不仅限于 JavaScript!)。在后端(服务器端),WebAssembly 的跨平台支持和多架构可移植性有望极大地简化开发、部署和可扩展性。 NGINX 旨在帮助您创建服务器端 WebAssembly 模块并在任何位置运行它 — 不必修改也无需多个 build 流水线。相反,您的 WebAssembly 模块创建可以从本地开发开始,直至投入到运行任务关键的多云环境。 随着 NGINX Unit 1.31 的发布 ,我们很高兴实现了这一愿景。 NGINX Unit 是一个通用的 web 应用服务器 ,应用代码与 TLS、静态文件及请求路由等其他基本属性一同执行。不仅如此,NGINX Unit ...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- SpringBoot2全家桶,快速入门学习开发网站教程
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- 2048小游戏-低调大师作品
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS6,CentOS7官方镜像安装Oracle11G