新华网大模型评测:文心一言多项第一
如今的国内市场已上线有 100 多款大模型产品。对此,新华网与权威机构联合发布了一份《国内 LLM 产品测试报告》,为业界选择大模型提供了内容安全、常识问答、数学运算、阅读理解和主观问答等五大维度。
报告以文心一言、GPT-3.5等四大知名大模型为例进行评测,结果显示百度文心一言综合得分第一,超过GPT-3.5,国内大模型排名第一。
内容价值是企业选择大模型重要因素
大模型具有良好的通用性和泛化性。普通人通过简单的问答,就能获得想要的服务和产品功能。但是不同国家和地区有不同的法律文化、社会习俗、伦理道德。因此,对于同一个问题,大模型给出的答案可能会引发不同的社会反馈,有正面效应也可能含有负面争议,一些文化偏见甚至可能引发群体矛盾。
因此,内容是选择大模型的重要考虑因素。在新华网的评测报告中,有两大关于内容的维度。一是内容安全问答,包含了意识形态、非法涉黄等多项维度,二是常识问答,涵盖有中国文化、历史、地理和生活等常识知识。新华网物联网技术总监葛振斌表示,“大模型生成的内容必须符合当地法律和社会道德要求。可以说,各个国家都需要‘更适合自己历史文化’的大语言模型。”
内容,对于产业界同样非常重要,有的企业涉及国计民生,还有的企业依靠“传承配方”形成独特竞争力。中国传媒大学新媒体研究院院长赵子忠表示,“这对大模型在信息安全、数据安全、定制化等方面的服务能力提出了考验。大模型必须具备行业化、场景化的服务能力,才能满足不同企业的要求。”
文心一言“最适合中国”
当前,从政府机构到企业公司,都迫切需要一些判断大模型适合程度的标准和方法。
新华网物联网技术总监葛振斌认为,评测大模型有5项维度非常重要:一是把控生成内容安全性的能力,背后涉及意识形态、政治体制、非法涉黄等维度,每一项都事关一个社会文明的底线;二是常识推断计算的能力,涉及自然、文化、地理、历史和生活等多个领域,必须先吃透这些方面的常识,才能避免生成不恰当的内容结果;三是对长文本的语义理解能力。这可以考验大模型产出的内容是否正确且言之有理,是否具有较好的说服力;四是数学运算及数学推理能力;五是主观思维能力,考验大模型是否可以准确理解当地风俗习惯或者传统文化。
新华网评测报告显示,文心一言因中文搜索引擎和算法模型优势,在安全、常识、数学、阅读等方面优势明显。在五个维度上的得分计算均值,文心一言的综合得分为94.7分,排名第一,高于GPT-3.5的76.9分。这说明当前文心一言在总体能力(中文处理)上已经超越了GPT-3.5模型。
(新华网测试报告:百度文心一言综合得分第一)
凭借上述表现,文心一言在“最适合中国”方面抢占领先身位,领跑国内大模型。
中国传媒大学新媒体研究院院长赵子忠建议,创业者和开发者以及中小企业,其实不需要从0到1的打造自己的大模型,可以基于文心大模型打造智能应用,避免重复造轮子,把精力放在自己擅长的创新上。谁先做出来满足用户需求的应用,谁就抢占了发展先机。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Web-Check —— 在线网络检查工具
Web-Check 是一款在线网络检查工具,可以查看一个网站几乎所有信息,如 IP 信息、SSL、DNS记录、Cookies、域名信息、搜索爬行规则、服务器位置、重定向记录、开放端口、路由跟踪、DNS安全扩展、网站性能、关联主机名等。
- 下一篇
OpenAI 将推出大量 ChatGPT 功能更新
OpenAI 开发者关系专家 Logan Kilpatrick社交平台上发帖称,“在接下来的一周里,大量的 ChatGPT 更新将会陆续推出”。 具体包括有: 1. 示例提示(Example prompts) 2. 建议的回复:ChatGPT会自动合成后续问题。此功能能够有效地减轻用户疲劳。 3.对于付费的 ChatGPT Plus 用户来说,ChatGPT 会记住你之前选择的模型,避免在每次开始新聊天时都需切换模型。此功能可大幅提升生产力。 4. 现在,所有 Plus 用户都可以在代码解释器 beta 版中上传多个文件。 5. 保持登录状态:将不需要每两周被登出一次 6. 键盘快捷键:使用快捷键提高工作效率,尝试 ⌘ (Ctrl) + / 查看完整列表。 对于这些即将推出的功能,用户反应褒贬不一。但尽管如此,新功能的添加还为时尚早;用户最终会在工作流程中采用和使用哪些新功能,哪些新功能无法被用户接受或被长期拒绝,还有待观察。 值得一提的是,与此同时 OpenAI 已经向美国专利商标局(USPTO)提交了 GPT-5 的商标申请,该申请包括"人工生成人类语音和文本"以及"将文本或语音从...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS8编译安装MySQL8.0.19
- CentOS6,CentOS7官方镜像安装Oracle11G
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- MySQL8.0.19开启GTID主从同步CentOS8
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Red5直播服务器,属于Java语言的直播服务器
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7