大模型对战平台「SuperCLUE琅琊榜」排名首发,国内大模型首超 GPT 3.5
最近,来自中文语言理解测评基准开源社区 CLUE 的成员发起了中文大模型匿名对战平台 SuperCLUE-琅琊榜,目前已经获得有效投票 5.8K。 以下是截至2023年5月29日18点22分的 SuperCLUE 琅琊榜初始排名。 SuperCLUE-琅琊榜官方唯一地址:www.SuperCLUEAI.com SuperCLUE 是中文通用大模型综合性测评基准。 它主要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。包括但不限于: 这些模型不同任务的效果情况 相较于国际上的代表性模型做到了什么程度 这些模型与人类的效果对比如何? 它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。SuperCLUE 是中文语言理解测评基准 (CLUE) 在通用人工智能时代的进一步发展。 在初始排名中,由 Anthropic 公司开发的Claude 模型以 1215 分暂居第一。在国内模型中,MiniMax 模型以 1188 的高分力压众多国产大模型登顶 SuperCLUE 琅琊榜,暂居国服第一,也是国内大模型首次在公开测评中超过 GPT3.5。 其中,GPT 3.5 以 ...

