昆仑万维天工大模型推理能力大幅超过 GPT-3.5 和 LLaMA2
9月16日,在权威推理榜单Benchmark GSM8K 测试中,昆仑万维完全自研的天工大模型以 80% 的正确率脱颖而出,大幅领先GPT-3.5(57.1%)和LLaMA2-70B(56.8%),“这标志着天工的推理能力达到全球领先,接近GPT-4”。
与此同时,在MMLU数据集测试中,天工以65%准确率超越了LLaMA-65B的63.4%;在C-EVAL数据集测试中,天工以65%准确率超越了GPT3.5的54.4%。在HumanEval数据集测试中,天工以37.2%的准确率超过了PaLM-540B(26.2%)、LLaMA-65B(23.7%)、LLaMa2 -70B(30.5%)。
“推理能力对于判断一个基座大模型是否“聪明”至关重要。在GSM8K、MMLU、C-EVAL、HumanEval四项数据集测试中,天工大模型均获得较高的正确率,表明天工大模型的通用能力很强,核心性能均达到了国际领先水准。”
GSM8K英文数据集测试是目前全球公认的评判基座大模型推理能力的权威标准。GSM8K包含8500个高质量的数学问题。这些问题被分为7500个训练问题和1000个测试问题,一般需要2到8个步骤来解决。这些问题的解决主要涉及算术运算。GSM8K数据集的目的是用来测试推理多步数学问题的能力。研究人员通常使用GSM8K来评估大型语言模型在解决英文数学问题时的性能表现。
除了英文数据集,天工大模型在小米的中文开源数据集CMATH测试中也表现良好。CMATH数据集包括1700个小学水平的数学应用题和详细的注释,旨在提供一个基准工具,评估当前流行的大模型的数学能力对应小学数学哪一年级的水平,在这份测试集中天工大模型的平均准确率为76.4%高于ChatGPT的平均准确率74.8%。
天工和GPT-3.5在GSM8K测试中的具体表现,示例:
Every day, Wendi feeds each of her chickens three cups of mixed chicken feed, containing seeds, mealworms and vegetables to help keep them healthy. She gives the chickens their feed in three separate meals. In the morning, she gives her flock of chickens 15 cups of feed. In the afternoon, she gives her chickens another 25 cups of feed. How many cups of feed does she need to give her chickens in the final meal of the day if the size of Wendi's flock is 20 chickens?
案例为英文。注释:每天,Wendi 给每只鸡喂三杯混合鸡饲料,其中包括种子、黄粉虫和蔬菜,以帮助它们保持健康。她分三餐给鸡喂食。上午,她给鸡群喂 15 杯饲料。下午,她再给鸡喂 25 杯饲料。如果 Wendi 的鸡群有 20 只鸡,那么一天的最后一餐她需要给鸡喂多少杯饲料?
天工给出的解题思路:
最后天工大模型给出的答案是:Wendi 需要在一天的最后一餐中给鸡喂 20 杯饲料,以确保它们一天都吃饱。
GPT-3.5 给出的解题思路:
GPT-3.5给出的答案为:Wendi 需要在一天的最后一餐中给鸡喂 21 杯饲料,为错误的答案。
目前天工大模型仍属于内测阶段,以上评测暂未整合到天工AI搜索和天工AI助手,官方表示后续会将最好的基座部署上线,供用户体验。
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Wine 8.16 开发版发布,重新实现微软已弃用的 DirectMusic API
Wine 8.16 最新开发版已发布。 Wine (Wine Is Not an Emulator) 是一个能够在多种兼容 POSIX 接口的操作系统(诸如 Linux、macOS 与 BSD 等)上运行 Windows 应用的兼容层。它不是像虚拟机或者模拟器一样模仿内部的 Windows 逻辑,而是将 Windows API 调用翻译成为动态的 POSIX 调用,免除了性能和其它一些行为的内存占用,能够干净地整合 Windows 应用到桌面。 新版本主要变化: 重新实现微软已弃用的 DirectMusic API 该 API 于 90 年代末作为 DirectX 的一部分开始实现。 Microsoft DirectMusic 是用于音乐和声音效果的 DirectX 组件。 DirectMusic 还充当 DirectSound 组件的高级接口。不过,早在 Windows Vista 时代,DirectMusic 就已被弃用,但仍然有许多旧的 Windows 软件存在,并且感兴趣的 Wine 用户/开发者渴望开始尝试。所以在 2023 年,围绕 DirectMusic 支持出现了新的 ...
- 下一篇
Unity 道歉:将修改
对于上周引发激烈争议的 "runtime fee" 收费政策,Unity 官方今日终于正式进行了回应。他们表示对收费政策带来的混乱和焦虑深表歉意,目前正在与团队成员、社区、客户和合作伙伴交流,听取各方意见,以及修改政策——过几天会公布。 前几天 Unity 高管 Marc Whitten 已针对这一争议事件向外媒 Axios 进行了回复: Unity 公司实际上只会对第一次安装进行收费,但另一方面如果同一位用户在另一台不同的设备上安装游戏(例如在 PC 上安装后再在 Steam Deck 上安装),则依然会被计入收费。 Marc Whitten 还澄清了其他几点,包括游戏试玩 Demo 下载不会被计入收取 “运行费”,除非 “Demo 是包含在完整游戏下载中的一部分”,以及抢先体验游戏将被收费,而为慈善事业提供或纳入慈善的游戏将被免费除费用。 延伸阅读: Unity 引擎明年起根据游戏安装量收费 (runtime fee) 游戏引擎开发商 Unity 收到死亡威胁 走近 “收费门”:互相矛盾的服务条款导致 Unity 面临被起诉的风险
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2整合Redis,开启缓存,提高访问速度
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS关闭SELinux安全模块
- CentOS8安装Docker,最新的服务器搭配容器使用
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- CentOS6,CentOS7官方镜像安装Oracle11G
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS6,7,8上安装Nginx,支持https2.0的开启