中文大模型评测:国内大模型首超 GPT 3.5
最近,来自中文语言理解测评基准开源社区 CLUE 的成员发起了中文大模型匿名对战平台 SuperCLUE-琅琊榜,目前已经获得有效投票 5.8K。
以下是截至2023年5月29日18点22分的 SuperCLUE 琅琊榜初始排名。
SuperCLUE-琅琊榜官方唯一地址:www.SuperCLUEAI.com
SuperCLUE 是中文通用大模型综合性测评基准。
它主要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。包括但不限于:
- 这些模型不同任务的效果情况
- 相较于国际上的代表性模型做到了什么程度
- 这些模型与人类的效果对比如何?
它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。SuperCLUE 是中文语言理解测评基准 (CLUE) 在通用人工智能时代的进一步发展。
在初始排名中,由 Anthropic 公司开发的 Claude 模型以 1215 分暂居第一。在国内模型中,MiniMax 模型以 1188 的高分力压众多国产大模型登顶 SuperCLUE 琅琊榜,暂居国服第一,也是国内大模型首次在公开测评中超过 GPT3.5。
其中,GPT 3.5 以 1171 分排名第三。由清华大学和智谱AI开发的 ChatGLM-130B 则以 8 分微弱差距排名第四,ChatGLM-6B以仅 60 亿参数量的模型跻身前五,表现不俗。香港中文大学和复旦大学同样表现优异,分列 6、7 名,IDEA研究院的姜子牙大模型同样也超过了 1000 分,排名第 9。
相比之下在英文上表现强劲的 vicuna-13b 模型,仅仅排名第 10,在中文能力上明显弱于国内中文大模型。
值得提及的是,在英文对战排名中表现优异的 RWKV,在中文对战表现上稍显不足。RWKV 团队表示正在训练中文基底模型,后续会以中文身份加入对战。
CLUE 团队表示,之后会定期更新 SuperCLUE 琅琊榜排名,同时加入更多具有代表性的大模型。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Easy Retry 六月第一个版本 v1.4.0 版本
分布式系统大行其道的当前,系统数据的准确性和正确性是重大的挑战,基于 CAP 理论,采用柔性事务,保障系统可用性以及数据的最终一致性成为技术共识 为了保障分布式服务的可用性,服务容错性,服务数据一致性 以及服务间掉用的网络问题。依据 "墨菲定律",增加核心流程重试, 数据核对校验成为提高系统鲁棒性常用的技术方案 特性 易用性业务接入成本小。避免依赖研发人员的技术水平,保障重试的稳定性 灵活性能够动态调整配置,启动 / 停止任务,以及终止运行中的重试数据 操作简单分钟上手,支持 WEB 页面对重试数据 CRUD 操作。 数据大盘实时管控系统重试数据 多样化退避策略Cron、固定间隔、等级触发、随机时间触发 容器化部署服务端支持 docker 容器部署 高性能调度平台支持服务端节点动态扩容和缩容 多样化重试类型支持 ONLY_LOCAL、ONLY_REMOTE、LOCAL_REMOTE 多种重试类型 重试数据管理可以做到重试数据不丢失、重试数据一键回放 支持多样化的告警方式邮箱、企业微信、钉钉、飞书 客户端与服务端数据交互图 #系统架构图 分布式系统重试的重要性 在分布式系统中,由于网络延...
- 下一篇
GOTC 2023 国科础石谢宝友:开源开放 + 产业共建,共铸汽车产业智能化
5月27日-28日,2023全球开源技术峰会在上海张江科学会堂正式召开。其中,在28日举办的“OpenSDV 软件定义汽车分论坛”上,众多汽车大咖、开源领域专家、技术人员齐聚一堂,共同交流和分享关于软件定义汽车的最新技术、趋势和思想,以及软件与汽车的未来发展与挑战。 分论坛上,国科础石汽车基础操作系统技术总工程师谢宝友在论坛上重点介绍了国科础石自主研发的础光系列操作系统,包括应用于智能汽车自动驾驶域的础光Linux,础光智能操作系统,面向智能汽车车控域的础光实时操作系统(Photon RTOS),中央计算架构下的虚拟化解决方案——础光虚拟机管理器(Phonton Hypervisor),以及础光调优及诊断工具。 操作系统是汽车之“魂”。近几年,汽车操作系统的重要性被反复提及。在操作系统领域,国科础石提供面向智能汽车全域的操作系统内核解决方案,为上层应用层提供基本的底层系统功能,也为功能安全、预期功能安全、信息安全提供底层运行支撑保障。 具体而言,面向车控域,国科础石研发的础光实时操作系统可直接运行在MCU上,致力于为车辆控制软件提供安全的运行环境;面向智能汽车座舱域、自动驾驶域,国科础...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS8编译安装MySQL8.0.19
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- CentOS6,CentOS7官方镜像安装Oracle11G
- CentOS7设置SWAP分区,小内存服务器的救世主
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- SpringBoot2整合Redis,开启缓存,提高访问速度