LLM 基准测试：Vicuna 夺冠，清华 ChatGLM 排名第五-低调大师

LLM 基准测试：Vicuna 夺冠，清华 ChatGLM 排名第五

2023-05-05 515

LMSYS ORG (Large Model Systems Organization) 最新推出了一个大语言模型 (LLM) 基准平台 Chatbot Arena，旨在对目前市场上的大语言模型进行基准测试。具体表现为，通过在大语言模型间进行随机匿名的 1V1 battle 方式，并基于 Elo 评级系统得出排名。

LMSYS ORG 是一个开放的研究组织，由加州大学伯克利分校的学生和教师与加州大学圣地亚哥分校和卡内基梅隆大学合作创立。Elo 评分系统统是指由匈牙利裔美国物理学家 Arpad Elo 创建的一个衡量各类对弈活动水平的评价方法，是当今对弈水平评估的公认的权威方法。被广泛用于国际象棋、围棋、足球、篮球、电子竞技等运动；Elo 评分越高，越厉害。

具体来说，如果玩家 A 的评分为 Ra，玩家 B 的评分为 Rb，则玩家 A 获胜概率的确切公式（使用以 10 为底的 logistic 曲线）为：

玩家的评分可以在每场战斗后线性更新。假设玩家 A（评分为 Ra）预计得分Ea，但实际得分为Sa。更新该玩家评分的公式为：

LMSYS ORG 团队首先选择了当下比较出名的 9 个开源聊天机器人进行了评估。在 1v1 对战过程中，用户可以与两个匿名模型并排聊天。在得到两个模型的响应后，用户可以继续聊天或投票给他们认为更好的模型。提交投票后将显示模型名称，用户可以选择与两个随机选择的新匿名模型继续聊天，或重新开始新的 PK。该平台会记录所有的用户交互，但团队在分析时只会采用隐藏模型名称时的投票结果。

而在此比拼开始之前，团队已经先根据基准测试的结果掌握了各个模型可能的排名；并选择根据这个排名来配对模型，优先选择更匹配的对手。然后再改用均匀采样，以获得更好的整体排名覆盖。在赛程接近尾声时，团队还引入了一种新模型 fastchat-t5-3b。以上所有的操作最终导致了非均匀的模型频率。

🔼 每个模型组合的对战次数

🔼 前 15 种语言的对战次数

在经过一周左右时间的数据收集后，团队基于 4.7K 的有效匿名投票数据和计算结果得出了具体评分结果。

结果表明，130 亿参数的 Vicuna 以 1169 分夺得榜首。其次分别是同样 130 亿参数的 Koala、以及 LAION 的 Open Assistant；清华大学开源的中英双语对话模型 ChatGLM-6B 以 985 的 Elo 得分排名第 5。而 Meta 的 LLaMa 则排在了倒数第二，Stability AI 的 StableLM 以 858 分排名倒数第一。

更多详细信息可查看官方公布的数据。

此外，作为校准的基础，LMSYS ORG 还展示了对战中每个模型的对战获胜率以及使用 Elo 评分估算的预测对战胜率。通过比较数据，他们认为 Elo 评分确实可以相对较好地预测胜率。

🔼 模型 A 在所有非平局 A 与 B 战斗中获胜的比例

🔼 在 A 对 B 战斗中，使用 Elo 评分预测的模型 A 的胜率

展望未来，LMSYS ORG 计划在该匿名竞技场内添加更多的开源/闭源模型（ChatGPT-3.5 现已可用）；发布定期更新的排行榜；优化采样算法、锦标赛机制和服务系统以支持更多模型；以及根据不同的任务类型提供更加细化的排名。

延伸阅读：

微信关注我们

原文链接：https://www.oschina.net/news/239563/chatbot-arena-llm

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Go 文件后缀新提案：.go 变成 .ʕ◔ϖ◔ʔ

Mojo 是 AI 基础设施公司 Modular AI 最近发布的编程语言，它结合了 Python 的语法以及 C 语言的可移植性和性能，目标是使其成为 AI 研究和生产的理想选择。根据介绍，Mojo 不仅兼容 Python，还比它快 35000 倍。详情查看：AI 开发有了新编程语言，比 Python 快 35000 倍。为了体现 Mojo 的“快”，其开发团队埋了一个小彩蛋——支持将🔥用作 mojo 的文件扩展名。你没看错，就是一把火。也就是说hello.🔥是合法的文件，等同于hello.mojo。他们对此的解释是，通过一种有趣的视觉方式向用户传达：Mojo 让他们能够比以往任何时候都更快、更高效地开发。当然，如果你不喜欢这种略显花哨的扩展名后缀，使用默认的.mojo扩展名即可。 Mojo 的“骚”做法引起了另一门流行语言的效仿。Go 开发团队技术 leader Russ Cox (rsc) 今天提出了一项提案：添加新的文件扩展名.ʕ◔ϖ◔ʔ作为.go的替代方案。 rsc 在提案中写道，Go 在 Unicode 竞赛中已经落后了，因此决不能让这种情况持续下去。他建议大家...

2023-05-05

348

领课教育系统（roncoo-education）是基于领课网络多年的在线教育平台开发和运营经验打造出来的产品，致力于打造一个各行业都适用的分布式在线教育系统。系统采用前后端分离模式，前台采用 vue.js 为核心框架，后台采用 Spring Cloud 为核心框架。系统目前主要功能有课程点播功能，支持多家视频云的接入，课程附件管理功能，支持多家存储云的接入，可以帮助个人或者企业快速搭建一个轻量级的在线教育平台。 12.0.0 版本更新内容 1. 增加课程收藏和课程评论功能 2. 增加登录日志功能，统计注册和登录、课程用户学习统计等功能 3. 增加用户登录token的过期时间控制 4. 新增保利威视频云初始化功能，不再需要登录其后台进行手动设置 5. 短信通道增加领课云短信平台的支持 6. 优化MinIO的配置和修改获取方式 7. 解决Admin端长时间登录，出现菜单过期问题 8. 优化网关全局错误处理方式 9. bug修复：对上传的图片进行类型限制

2023-05-05

392

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。