百川开源大模型 Baichuan-13B 评测
继6月发布了7B预训练底座模型后,百川智能团队于近日最新开源了13B模型,包括预训练底座模型Baichuan-13B-Base和chat对齐模型Baichuan-13B-Chat,同时支持商用。
目前为止中文社区已经陆续发布了大量的开源模型,主要集中在6B-13B之间。
那么百川开源的这个模型相对于其他国内外有代表性的模型表现怎么样,比如与ChatGPT3.5有多大差距;与国内代表性的开源模型相比是什么水平;在一些比较受关注的能力上,如生成与创作、逻辑推理、代码生成,表现如何?
中文语言理解测评基准开源社区 CLUE 基于SuperCLUE-Open测评基准,也就是在开放式的问题并结合多轮对话能力的测试,用1200道题对Baichuan-13B-Chat进行了测评。
测评结果如下:
结论
1. 目前是中文百亿参数最好的模型吗?
目前认为对于同等量级开源模型 ,在SuperCLUE开放式多轮测评上Baichuan-13B-Chat是最好的开源模型。
2. 与ChatGPT3.5接近了吗?
与ChatGPT3.5比较,在SuperCLUE开放式多轮测评的常见任务中,如生成与创作、角色扮演、上下文对话、知识与百科,效果与ChatGPT3.5及Claude基础版相比是接近的(详见定量分析),但在复杂任务上,如代码生成、数学计算、逻辑与推理,还存在比较大的进步空间。
以下是从定量角度对模型进行的测评分析。
定量分析
- SuperCLUE-Open(开放式多轮测评):
- SuperCLUE-Open(开放式多轮测评)十大能力:以Baichuan-13B-Chat为例
可以看到,在SuperCLUE开放式多轮测评基准的十大能力评估中,百川开源大模型 Baichuan-13B 在多个能力上具有较好的表现(以胜和率为指标),部分任务有比较大的改进空间。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Stability AI CEO:人工智能将成为史上最大泡沫
Stability AI 创始人兼首席执行官 Emad Mostaque 在上周与瑞银分析师的电话会议上,讨论了他对人工智能作为投资机会的潜力及其在各行业(如银行业)的重要性的看法。并大胆预测,人工智能(AI)将成为“有史以来最大的泡沫”。 Stability AI 是 Stable Diffusion 背后的公司,Stable Diffusion 是一个文本转图像模型,是除 OpenAI 之外其他较为流行的生成式 AI 工具之一。拥有超过 100 万用户,并从 Coatue 和 Lightspeed Venture Partners 等投资者那里成功筹集了超过 1 亿美元的资金。 Mostaque 认为,人工智能发展仍处于非常早期的阶段,尚未准备好在银行业等行业大规模采用。“我称之为 dot AI 泡沫,它甚至还没有开始”。Mostaque 指的是 20 世纪 90 年代末和 21 世纪初的 dot-com bubble,也被成为 Internet bubble(互联网泡沫)。 在互联网泡沫时期,许多互联网初创公司纷纷出现并拥有很高的估值;一些乐观的投资者坚信互联网将彻底改变各行各业...
- 下一篇
ChatGPT的探索与实践-业务应用篇 | 京东云技术团队
本篇文章主要介绍在实际的开发过程当中,如何使用GPT帮助开发,优化流程,恰逢今年京东20周年庆,文末会介绍如何与618大促实际的业务相结合,来提升应用价值。全是干货,且本文所有代码和脚本都是利用GPT生成的,请放心食用。 场景一:写代码 使用GPT进行代码开发是许多人做的最多的一件事,只要用自然语言把自己的需求描述清楚,就可以让GPT写出一段可执行的代码段,甚至是完整的应用。而且只要描述得足够明确清晰,产生的代码就不会有bug,非常高效。 举个实际应用的例子,在先前的版本我们工程有一个需求,要求对落地页的提示黄条UI进行改版,具体的需求描述为: UI设计稿: 这是一个相当简单的需求,我们准备利用Flutter进行开发,现在假设我是一个对dart语言不是很了解的开发者,甚至是从没有Flutter开发基础的人,通过GPT我们也可以进行这种简单的开发工作。在对GPT进行描述的时候,要尽量用通顺的语言将自己的需求描述清楚,并且将关键的信息点名: 这样GPT就可以帮我们生成所需要的视图代码: 这对于没有接触过dart开发语言的开发者非常友好,由于可以任意指定编程语言,所以理论上,我们所有人都可以...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7安装Docker,走上虚拟化容器引擎之路
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- CentOS关闭SELinux安全模块
- CentOS7,CentOS8安装Elasticsearch6.8.6
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- Linux系统CentOS6、CentOS7手动修改IP地址
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- CentOS8安装Docker,最新的服务器搭配容器使用
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2配置默认Tomcat设置,开启更多高级功能