大模型对战平台「SuperCLUE琅琊榜」排名首发,国内大模型首超 GPT 3.5
最近,来自中文语言理解测评基准开源社区 CLUE 的成员发起了中文大模型匿名对战平台 SuperCLUE-琅琊榜,目前已经获得有效投票 5.8K。
以下是截至2023年5月29日18点22分的 SuperCLUE 琅琊榜初始排名。
SuperCLUE-琅琊榜官方唯一地址:www.SuperCLUEAI.com
SuperCLUE 是中文通用大模型综合性测评基准。
它主要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。包括但不限于:
- 这些模型不同任务的效果情况
- 相较于国际上的代表性模型做到了什么程度
- 这些模型与人类的效果对比如何?
它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。SuperCLUE 是中文语言理解测评基准 (CLUE) 在通用人工智能时代的进一步发展。
在初始排名中,由 Anthropic 公司开发的 Claude 模型以 1215 分暂居第一。在国内模型中,MiniMax 模型以 1188 的高分力压众多国产大模型登顶 SuperCLUE 琅琊榜,暂居国服第一,也是国内大模型首次在公开测评中超过 GPT3.5。
其中,GPT 3.5 以 1171 分排名第三。由清华大学和智谱AI开发的 ChatGLM-130B 则以 8 分微弱差距排名第四,ChatGLM-6B以仅 60 亿参数量的模型跻身前五,表现不俗。香港中文大学和复旦大学同样表现优异,分列 6、7 名,IDEA研究院的姜子牙大模型同样也超过了 1000 分,排名第 9。
相比之下在英文上表现强劲的 vicuna-13b 模型,仅仅排名第 10,在中文能力上明显弱于国内中文大模型。
值得提及的是,在英文对战排名中表现优异的 RWKV,在中文对战表现上稍显不足。RWKV 团队表示正在训练中文基底模型,后续会以中文身份加入对战。
CLUE 团队表示,之后会定期更新 SuperCLUE 琅琊榜排名,同时加入更多具有代表性的大模型。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
图数据库 NebulaGraph v3.5.0 发布,支持免索引查询、UDF...
本次 v3.5.0 版本主要是优化了 FIND ALL PATH 性能,支持免索引的全表扫描等功能。具体性能提升幅度,记得阅读下周的 NebulaGraph v3.5.0 性能报告。 特性 支持免索引的全表扫描,参见 pr:#5416 支持 UDF,参见 pr:#4804#5391 支持在返回语句中使用像v.tag这样的表达式,参见 pr:#5440 支持UPDATE语句中的 json_extract 函数,参见 pr:#5457 支持在EXPLAIN输出中使用 TCK 格式,参见 pr:#5414 DML 支持参数,参见 pr:#5328 优化 支持以毫秒为单位的 TTL,参见 pr:#5430 增强了聚合函数中的属性裁剪功能,参见 pr:#5301 提高了遍历执行器的性能,参见 pr:#5308 优化了FIND ALL PATH性能,参见 pr:#5409 为了提高性能,移除了一些 raft锁,参见 pr:#54513 优化了谓词函数过滤变长边,参见 pr:#5464#5470#5481#5503 并行遍历执行器,参见 pr:#53141 MATCH支持ID 集合,参见 pr:#5...
- 下一篇
低代码开发平台 Noodl 即将开源
Noodl 是一个低代码开发平台,让设计师、开发者能够用低代码的可视化编程方法构建强大的 Web 应用。目前 Noodl 已被亚马逊、三星、沃尔玛等财富 500 强企业应用于原型设计到生产环境中。 日前,Noodl 官方发出公告表示,将从现有的付费订阅模式向开源模式过渡。 Noodl 目前的价格为 299美元/月,开源后用户构建、部署、维护和托管应用程序所需的一切都将是完全开源和免费的。Noodl 还会保留一个具有额外功能的商业版本,该版本将包括协作工具、版本控制和对应用程序扩展的优化。这种方法即确保了平台对每个人都是开放的,同时为希望利用高级功能的用户和企业提供附加价值。 根据官方提供的开源路线图,Noodl 将在未来的 6-12 个月时间里,在开源许可下分阶段、逐步开源构建、部署和托管 Noodl 应用程序所需的一切。 Noodl 把代码库划分为两个主要部分,第一个部分将涵盖构建和运行 Noodl 编辑器所需的一切,而第二个部分将解决部署和托管 Noodl 应用程序所需的所有方面。 为了平衡社区和商业用户的需求,Noodl 选择为这些组件使用两种不同的许可证。第一个组件,与构建和运...
相关文章
文章评论
共有0条评论来说两句吧...