您现在的位置是:首页 > 文章详情

昆仑万维天工大模型推理能力大幅超过 GPT-3.5 和 LLaMA2

日期:2023-09-18点击:112

9月16日,在权威推理榜单Benchmark GSM8K 测试中,昆仑万维完全自研的天工大模型以 80% 的正确率脱颖而出,大幅领先GPT-3.5(57.1%)和LLaMA2-70B(56.8%),“这标志着天工的推理能力达到全球领先,接近GPT-4”。

与此同时,在MMLU数据集测试中,天工以65%准确率超越了LLaMA-65B的63.4%;在C-EVAL数据集测试中,天工以65%准确率超越了GPT3.5的54.4%。在HumanEval数据集测试中,天工以37.2%的准确率超过了PaLM-540B(26.2%)、LLaMA-65B(23.7%)、LLaMa2 -70B(30.5%)。

推理能力对于判断一个基座大模型是否“聪明”至关重要。在GSM8K、MMLU、C-EVAL、HumanEval四项数据集测试中,天工大模型均获得较高的正确率,表明天工大模型的通用能力很强,核心性能均达到了国际领先水准。

GSM8K英文数据集测试目前全球公认的评判基座大模型推理能力的权威标准。GSM8K包含8500个高质量的数学问题。这些问题被分为7500个训练问题和1000个测试问题,一般需要2到8个步骤来解决。这些问题的解决主要涉及算术运算。GSM8K数据集的目的是用来测试推理多步数学问题的能力。研究人员通常使用GSM8K来评估大型语言模型在解决英文数学问题时的性能表现。

除了英文数据集,天工大模型在小米的中文开源数据集CMATH测试中也表现良好。CMATH数据集包括1700个小学水平的数学应用题和详细的注释,旨在提供一个基准工具,评估当前流行的大模型的数学能力对应小学数学哪一年级的水平,在这份测试集中天工大模型的平均准确率为76.4%高于ChatGPT的平均准确率74.8%。

天工和GPT-3.5在GSM8K测试中的具体表现,示例:

Every day, Wendi feeds each of her chickens three cups of mixed chicken feed, containing seeds, mealworms and vegetables to help keep them healthy.  She gives the chickens their feed in three separate meals. In the morning, she gives her flock of chickens 15 cups of feed.  In the afternoon, she gives her chickens another 25 cups of feed.  How many cups of feed does she need to give her chickens in the final meal of the day if the size of Wendi's flock is 20 chickens?

案例为英文。注释:每天,Wendi 给每只鸡喂三杯混合鸡饲料,其中包括种子、黄粉虫和蔬菜,以帮助它们保持健康。她分三餐给鸡喂食。上午,她给鸡群喂 15 杯饲料。下午,她再给鸡喂 25 杯饲料。如果 Wendi 的鸡群有 20 只鸡,那么一天的最后一餐她需要给鸡喂多少杯饲料?

天工给出的解题思路

最后天工大模型给出的答案是:Wendi 需要在一天的最后一餐中给鸡喂 20 杯饲料,以确保它们一天都吃饱。

GPT-3.5 给出的解题思路:

GPT-3.5给出的答案为:Wendi 需要在一天的最后一餐中给鸡喂 21 杯饲料,为错误的答案。

目前天工大模型仍属于内测阶段,以上评测暂未整合到天工AI搜索和天工AI助手,官方表示后续会将最好的基座部署上线,供用户体验。

原文链接:https://www.oschina.net/news/258509
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章