新华网大模型评测:文心一言多项第一
如今的国内市场已上线有 100 多款大模型产品。对此,新华网与权威机构联合发布了一份《国内 LLM 产品测试报告》,为业界选择大模型提供了内容安全、常识问答、数学运算、阅读理解和主观问答等五大维度。 报告以文心一言、GPT-3.5等四大知名大模型为例进行评测,结果显示百度文心一言综合得分第一,超过GPT-3.5,国内大模型排名第一。 内容价值是企业选择大模型重要因素 大模型具有良好的通用性和泛化性。普通人通过简单的问答,就能获得想要的服务和产品功能。但是不同国家和地区有不同的法律文化、社会习俗、伦理道德。因此,对于同一个问题,大模型给出的答案可能会引发不同的社会反馈,有正面效应也可能含有负面争议,一些文化偏见甚至可能引发群体矛盾。 因此,内容是选择大模型的重要考虑因素。在新华网的评测报告中,有两大关于内容的维度。一是内容安全问答,包含了意识形态、非法涉黄等多项维度,二是常识问答,涵盖有中国文化、历史、地理和生活等常识知识。新华网物联网技术总监葛振斌表示,“大模型生成的内容必须符合当地法律和社会道德要求。可以说,各个国家都需要‘更适合自己历史文化’的大语言模型。” 内容,对于产业界同样非...
