SuperCLUE 10 月榜单:vivo 自研大模型位列国内第一
SuperCLUE 发布了中文大模型10月榜单。其中,vivo自研大模型以70.74的总分位列总排行榜第四,在国内大模型中排行第一;排在其后的分别是Moonshot、文心一言4.0和SenseChat 3.0。
SuperCLUE是中文通用大模型多层次的综合性测评基准,包括多轮开放问题测评SuperCLUE-OPEN和三大能力客观题测评SuperCLUE-OPT。主要考察模型在中文能力上的表现,包括专业知识技能、语言理解与生成、AI智能体和安全四大能力维度的上百个任务。
本次评测选取了目前国内外最具代表性的20个通用大语言模型。与9月相比,新增了月之暗面的Moonshot、百度的文心一言4.0、科大讯飞的星火V3.0、vivo的vivoLM和阿里云的Qwen-14B。
评测发现,国内第一梯队大模型格局已基本形成,在过去11个月的成绩令人振奋,头部几个中文大模型已经与GPT3.5极为接近。但与GPT4的距离依然遥远,尚未发现有对标和媲美GPT4的迹象。
10月评测数据集为全新的3754道测试题,其中包括606道多轮简答题和3148道客观选择题。
总排行榜
注:本次评测的GPT3.5版本为gpt-3.5-turbo-16k;文心一言4.0和SenseChat3.0由于分数非常接近(在0.05分以内)认定为并列。
多轮开放问题OPEN排行榜
三大能力客观题OPT排行榜
十大基础能力榜单
开源模型排行榜
SuperCLUE 观点
- 国内第一梯队大模型经过11个月的努力,已经与GPT3.5极为接近。但与GPT4的距离依然巨大,尚未发现有对标和媲美GPT4的迹象。
- 国内大模型多数擅长做选择题,在三大能力客观题OPT分数上有不少已经超过GPT3.5。SuperCLUE认为,客观题相对主观题更容易通过题库形式进行训练和提升;同时也由于客观题中包含中文特性问题,中文模型自然有一定的优势。
- 国内大模型厂商从算力、数据、人才层面上做了很多努力,SuperCLUE预计在接下来一个季度内将会出现全面超越GPT3.5的通用大模型。但如何赶超GPT4,又会成为摆在所有中文模型研发机构面前新的难题。
- SuperCLUE国内大模型能力成熟度:在语言理解与生成能力、大模型安全性防护能力上,国内一线模型已经相对成熟、表现优异;在专业技能与知识上,已能满足一些应用需求;在Agent智能体能力上,还相对落后、成熟度低。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
微软 CEO 纳德拉:放弃 Windows Phone 和移动业务是错误决策
微软 CEO 纳德拉 (Satya Nadella) 近日在接受媒体访问时表示,微软放弃 Windows Phone 和移动业务是错误决策。 纳德拉在 2014 年接替鲍尔默 (Steve Ballmer) 担任 CEO,仅仅一年之后就宣布裁撤了鲍尔默任内斥资 76 亿美元收购的诺基亚手机业务。此后 Windows Phone 事实上就退出了移动市场。 在接受 Business Insider 采访时,纳德拉坦言微软在“退出”手机业务上处理得不够恰当。在被问及他可能后悔的战略错误或错误决定时,纳德拉回答道: “这项决定(退出手机业务)时常被人拿出来讨论,也是我出任首席执行官之后做出的最困难决定——退出“当时定义下的手机”。 现在回想起来,我认为我们可以通过重新发明个人电脑、平板电脑和手机之间的计算类别,来重振手机业务。” 在诺基亚手机业务被放弃多年后,微软才最终确认 Windows Phone 已经消亡。此后,微软推出了基于 Android 的 Surface Duo 和 Surface Duo 2 手机,但由于没有后续产品,也缺乏软件更新,因此 Surface Duo 手机品牌的未来...
- 下一篇
DHorse 改用 fabric8 的 SDK 与 K8s 集群交互
现状 在dhorse 1.4.0版本之前,一直使用k8s官方提供的sdk与k8s集群交互,官方sdk的Maven坐标如下: <dependency> <groupId>io.kubernetes</groupId> <artifactId>client-java</artifactId> <version>18.0.0</version> </dependency> 但是自从1.4.0版本以后,dhorse开始支持fabric8的sdk,fabric8的sdk的Maven坐标如下: <dependency> <groupId>io.fabric8</groupId> <artifactId>kubernetes-client</artifactId> <version>6.9.0</version> </dependency> 那么,为什么要替换为fabric8的sdk...
相关文章
文章评论
共有0条评论来说两句吧...