百川开源大模型 Baichuan-13B 评测-低调大师

百川开源大模型 Baichuan-13B 评测

2023-07-18 1008

继6月发布了7B预训练底座模型后，百川智能团队于近日最新开源了13B模型，包括预训练底座模型Baichuan-13B-Base和chat对齐模型Baichuan-13B-Chat，同时支持商用。

目前为止中文社区已经陆续发布了大量的开源模型，主要集中在6B-13B之间。

那么百川开源的这个模型相对于其他国内外有代表性的模型表现怎么样，比如与ChatGPT3.5有多大差距；与国内代表性的开源模型相比是什么水平；在一些比较受关注的能力上，如生成与创作、逻辑推理、代码生成，表现如何？

中文语言理解测评基准开源社区 CLUE 基于SuperCLUE-Open测评基准，也就是在开放式的问题并结合多轮对话能力的测试，用1200道题对Baichuan-13B-Chat进行了测评。

测评结果如下：

结论

1. 目前是中文百亿参数最好的模型吗？

目前认为对于同等量级开源模型，在SuperCLUE开放式多轮测评上Baichuan-13B-Chat是最好的开源模型。

2. 与ChatGPT3.5接近了吗？

与ChatGPT3.5比较，在SuperCLUE开放式多轮测评的常见任务中，如生成与创作、角色扮演、上下文对话、知识与百科，效果与ChatGPT3.5及Claude基础版相比是接近的（详见定量分析），但在复杂任务上，如代码生成、数学计算、逻辑与推理，还存在比较大的进步空间。

以下是从定量角度对模型进行的测评分析。

定量分析

SuperCLUE-Open（开放式多轮测评）：

SuperCLUE-Open（开放式多轮测评）十大能力：以Baichuan-13B-Chat为例

可以看到，在SuperCLUE开放式多轮测评基准的十大能力评估中，百川开源大模型 Baichuan-13B 在多个能力上具有较好的表现（以胜和率为指标），部分任务有比较大的改进空间。

点此查看详情。

微信关注我们

原文链接：https://www.oschina.net/news/249838

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Stability AI CEO：人工智能将成为史上最大泡沫

Stability AI 创始人兼首席执行官 Emad Mostaque 在上周与瑞银分析师的电话会议上，讨论了他对人工智能作为投资机会的潜力及其在各行业（如银行业）的重要性的看法。并大胆预测，人工智能（AI）将成为“有史以来最大的泡沫”。 Stability AI 是 Stable Diffusion 背后的公司，Stable Diffusion 是一个文本转图像模型，是除 OpenAI 之外其他较为流行的生成式 AI 工具之一。拥有超过 100 万用户，并从 Coatue 和 Lightspeed Venture Partners 等投资者那里成功筹集了超过 1 亿美元的资金。 Mostaque 认为，人工智能发展仍处于非常早期的阶段，尚未准备好在银行业等行业大规模采用。“我称之为 dot AI 泡沫，它甚至还没有开始”。Mostaque 指的是 20 世纪 90 年代末和 21 世纪初的 dot-com bubble，也被成为 Internet bubble（互联网泡沫）。在互联网泡沫时期，许多互联网初创公司纷纷出现并拥有很高的估值；一些乐观的投资者坚信互联网将彻底改变各行各业...

2023-07-18

629

本篇文章主要介绍在实际的开发过程当中，如何使用GPT帮助开发，优化流程，恰逢今年京东20周年庆，文末会介绍如何与618大促实际的业务相结合，来提升应用价值。全是干货，且本文所有代码和脚本都是利用GPT生成的，请放心食用。场景一：写代码使用GPT进行代码开发是许多人做的最多的一件事，只要用自然语言把自己的需求描述清楚，就可以让GPT写出一段可执行的代码段，甚至是完整的应用。而且只要描述得足够明确清晰，产生的代码就不会有bug，非常高效。举个实际应用的例子，在先前的版本我们工程有一个需求，要求对落地页的提示黄条UI进行改版，具体的需求描述为： UI设计稿：这是一个相当简单的需求，我们准备利用Flutter进行开发，现在假设我是一个对dart语言不是很了解的开发者，甚至是从没有Flutter开发基础的人，通过GPT我们也可以进行这种简单的开发工作。在对GPT进行描述的时候，要尽量用通顺的语言将自己的需求描述清楚，并且将关键的信息点名：这样GPT就可以帮我们生成所需要的视图代码：这对于没有接触过dart开发语言的开发者非常友好，由于可以任意指定编程语言，所以理论上，我们所有人都可以...

2023-07-18

412

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。