LLM 基准测试:Vicuna 夺冠,清华 ChatGLM 排名第五
LMSYS ORG (Large Model Systems Organization) 最新推出了一个大语言模型 (LLM) 基准平台 Chatbot Arena,旨在对目前市场上的大语言模型进行基准测试。具体表现为,通过在大语言模型间进行随机匿名的 1V1 battle 方式,并基于 Elo 评级系统得出排名。
LMSYS ORG 是一个开放的研究组织,由加州大学伯克利分校的学生和教师与加州大学圣地亚哥分校和卡内基梅隆大学合作创立。Elo 评分系统统是指由匈牙利裔美国物理学家 Arpad Elo 创建的一个衡量各类对弈活动水平的评价方法,是当今对弈水平评估的公认的权威方法。被广泛用于国际象棋、围棋、足球、篮球、电子竞技等运动;Elo 评分越高,越厉害。
具体来说,如果玩家 A 的评分为 Ra,玩家 B 的评分为 Rb,则玩家 A 获胜概率的确切公式(使用以 10 为底的 logistic 曲线)为:
玩家的评分可以在每场战斗后线性更新。假设玩家 A(评分为 Ra)预计得 分Ea
,但实际得分为Sa
。更新该玩家评分的公式为:
LMSYS ORG 团队首先选择了当下比较出名的 9 个开源聊天机器人进行了评估。在 1v1 对战过程中,用户可以与两个匿名模型并排聊天。在得到两个模型的响应后,用户可以继续聊天或投票给他们认为更好的模型。提交投票后将显示模型名称,用户可以选择与两个随机选择的新匿名模型继续聊天,或重新开始新的 PK。该平台会记录所有的用户交互,但团队在分析时只会采用隐藏模型名称时的投票结果。
而在此比拼开始之前,团队已经先根据基准测试的结果掌握了各个模型可能的排名;并选择根据这个排名来配对模型,优先选择更匹配的对手。然后再改用均匀采样,以获得更好的整体排名覆盖。在赛程接近尾声时,团队还引入了一种新模型 fastchat-t5-3b。以上所有的操作最终导致了非均匀的模型频率。
🔼 每个模型组合的对战次数
🔼 前 15 种语言的对战次数
在经过一周左右时间的数据收集后,团队基于 4.7K 的有效匿名投票数据和计算结果得出了具体评分结果。
结果表明,130 亿参数的 Vicuna 以 1169 分夺得榜首。其次分别是同样 130 亿参数的 Koala、以及 LAION 的 Open Assistant;清华大学开源的中英双语对话模型 ChatGLM-6B 以 985 的 Elo 得分排名第 5。而 Meta 的 LLaMa 则排在了倒数第二,Stability AI 的 StableLM 以 858 分排名倒数第一。
更多详细信息可查看官方公布的数据。
此外,作为校准的基础,LMSYS ORG 还展示了对战中每个模型的对战获胜率以及使用 Elo 评分估算的预测对战胜率。通过比较数据,他们认为 Elo 评分确实可以相对较好地预测胜率。
🔼 模型 A 在所有非平局 A 与 B 战斗中获胜的比例
🔼 在 A 对 B 战斗中,使用 Elo 评分预测的模型 A 的胜率
展望未来,LMSYS ORG 计划在该匿名竞技场内添加更多的开源/闭源模型(ChatGPT-3.5 现已可用);发布定期更新的排行榜;优化采样算法、锦标赛机制和服务系统以支持更多模型;以及根据不同的任务类型提供更加细化的排名。
延伸阅读:

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Go 文件后缀新提案:.go 变成 .ʕ◔ϖ◔ʔ
Mojo 是 AI 基础设施公司 Modular AI 最近发布的编程语言,它结合了 Python 的语法以及 C 语言的可移植性和性能,目标是使其成为 AI 研究和生产的理想选择。 根据介绍,Mojo 不仅兼容 Python,还比它快 35000 倍。详情查看:AI 开发有了新编程语言, 比 Python 快 35000 倍。 为了体现 Mojo 的“快”,其开发团队埋了一个小彩蛋——支持将🔥用作 mojo 的文件扩展名。你没看错,就是一把火。也就是说hello.🔥是合法的文件,等同于hello.mojo。他们对此的解释是,通过一种有趣的视觉方式向用户传达:Mojo 让他们能够比以往任何时候都更快、更高效地开发。 当然,如果你不喜欢这种略显花哨的扩展名后缀,使用默认的.mojo扩展名即可。 Mojo 的“骚”做法引起了另一门流行语言的效仿。Go 开发团队技术 leader Russ Cox (rsc) 今天提出了一项提案:添加新的文件扩展名.ʕ◔ϖ◔ʔ作为.go的替代方案。 rsc 在提案中写道,Go 在 Unicode 竞赛中已经落后了,因此决不能让这种情况持续下去。他建议大家...
- 下一篇
roncoo-education 12.0.0 发布,微服务分布式在线教育开源系统
领课教育系统(roncoo-education)是基于领课网络多年的在线教育平台开发和运营经验打造出来的产品,致力于打造一个各行业都适用的分布式在线教育系统。系统采用前后端分离模式,前台采用 vue.js 为核心框架,后台采用 Spring Cloud 为核心框架。系统目前主要功能有课程点播功能,支持多家视频云的接入,课程附件管理功能,支持多家存储云的接入,可以帮助个人或者企业快速搭建一个轻量级的在线教育平台。 12.0.0 版本更新内容 1. 增加课程收藏和课程评论功能 2. 增加登录日志功能,统计注册和登录、课程用户学习统计等功能 3. 增加用户登录token的过期时间控制 4. 新增保利威视频云初始化功能,不再需要登录其后台进行手动设置 5. 短信通道增加领课云短信平台的支持 6. 优化MinIO的配置和修改获取方式 7. 解决Admin端长时间登录,出现菜单过期问题 8. 优化网关全局错误处理方式 9. bug修复:对上传的图片进行类型限制
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- CentOS8安装Docker,最新的服务器搭配容器使用
- Hadoop3单机部署,实现最简伪集群
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS8编译安装MySQL8.0.19