LLM 基准测试:Vicuna 夺冠,清华 ChatGLM 排名第五
LMSYS ORG (Large Model Systems Organization) 最新推出了一个大语言模型 (LLM) 基准平台 Chatbot Arena,旨在对目前市场上的大语言模型进行基准测试。具体表现为,通过在大语言模型间进行随机匿名的 1V1 battle 方式,并基于 Elo 评级系统得出排名。 LMSYS ORG 是一个开放的研究组织,由加州大学伯克利分校的学生和教师与加州大学圣地亚哥分校和卡内基梅隆大学合作创立。Elo 评分系统统是指由匈牙利裔美国物理学家 Arpad Elo 创建的一个衡量各类对弈活动水平的评价方法,是当今对弈水平评估的公认的权威方法。被广泛用于国际象棋、围棋、足球、篮球、电子竞技等运动;Elo 评分越高,越厉害。 具体来说,如果玩家 A 的评分为 Ra,玩家 B 的评分为 Rb,则玩家 A 获胜概率的确切公式(使用以 10 为底的 logistic 曲线)为: 玩家的评分可以在每场战斗后线性更新。假设玩家 A(评分为 Ra)预计得 分Ea,但实际得分为Sa。更新该玩家评分的公式为: LMSYS ORG 团队首先选择了当下比较出名的 9 个开源...
