您现在的位置是:首页 > 文章详情

大模型评测体系“司南” (OpenCompass2.0) 发布

日期:2024-02-02点击:47

上海人工智能实验室科学家团队正式发布了大模型开源开放评测体系“司南” (OpenCompass2.0),用于为大语言模型、多模态模型等提供一站式评测服务。

司南OpenCompass2.0评测体系官网:https://opencompass.org.cn/
GitHub主页:https://github.com/open-compass/OpenCompass/

据介绍,“司南”全面量化模型在知识、语言、理解、推理和考试等五大能力维度的表现,评测榜单涉及的大语言模型和多模态大模型超过150个,客观中立地为大模型技术的创新提供坚实的技术支撑。截至目前,已有包括Meta、阿里巴巴、腾讯、百度等30余家国内外企业和科研机构采用“司南”助力开展技术研发。

OpenCompass2.0 对过去一年来主流开源模型和商业API模型进行了全面评测,分析结果显示,GPT-4 Turbo在各项评测中均获最佳表现,智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0紧随其后;大语言模型整体能力仍有较大提升空间,复杂推理相关能力仍是短板;中文场景下国内的模型更具优势,与此同时,开源模型进步很快,以较小的体量达到较高性能水平,表现出较大的发展潜力。

完整榜单:https://rank.opencompass.org.cn/home

原文链接:https://www.oschina.net/news/277396
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章