昆仑万维天工大模型推理能力大幅超过 GPT-3.5 和 LLaMA2-低调大师

昆仑万维天工大模型推理能力大幅超过 GPT-3.5 和 LLaMA2

2023-09-18 462

9月16日，在权威推理榜单Benchmark GSM8K 测试中，昆仑万维完全自研的天工大模型以 80% 的正确率脱颖而出，大幅领先GPT-3.5（57.1%）和LLaMA2-70B（56.8%），“这标志着天工的推理能力达到全球领先，接近GPT-4”。

与此同时，在MMLU数据集测试中，天工以65%准确率超越了LLaMA-65B的63.4%；在C-EVAL数据集测试中，天工以65%准确率超越了GPT3.5的54.4%。在HumanEval数据集测试中，天工以37.2%的准确率超过了PaLM-540B（26.2%）、LLaMA-65B（23.7%）、LLaMa2 -70B（30.5%）。

“推理能力对于判断一个基座大模型是否“聪明”至关重要。在GSM8K、MMLU、C-EVAL、HumanEval四项数据集测试中，天工大模型均获得较高的正确率，表明天工大模型的通用能力很强，核心性能均达到了国际领先水准。”

GSM8K英文数据集测试是目前全球公认的评判基座大模型推理能力的权威标准。GSM8K包含8500个高质量的数学问题。这些问题被分为7500个训练问题和1000个测试问题，一般需要2到8个步骤来解决。这些问题的解决主要涉及算术运算。GSM8K数据集的目的是用来测试推理多步数学问题的能力。研究人员通常使用GSM8K来评估大型语言模型在解决英文数学问题时的性能表现。

除了英文数据集，天工大模型在小米的中文开源数据集CMATH测试中也表现良好。CMATH数据集包括1700个小学水平的数学应用题和详细的注释，旨在提供一个基准工具，评估当前流行的大模型的数学能力对应小学数学哪一年级的水平，在这份测试集中天工大模型的平均准确率为76.4%高于ChatGPT的平均准确率74.8%。

天工和GPT-3.5在GSM8K测试中的具体表现，示例：

Every day, Wendi feeds each of her chickens three cups of mixed chicken feed, containing seeds, mealworms and vegetables to help keep them healthy. She gives the chickens their feed in three separate meals. In the morning, she gives her flock of chickens 15 cups of feed. In the afternoon, she gives her chickens another 25 cups of feed. How many cups of feed does she need to give her chickens in the final meal of the day if the size of Wendi's flock is 20 chickens?

案例为英文。注释：每天，Wendi 给每只鸡喂三杯混合鸡饲料，其中包括种子、黄粉虫和蔬菜，以帮助它们保持健康。她分三餐给鸡喂食。上午，她给鸡群喂 15 杯饲料。下午，她再给鸡喂 25 杯饲料。如果 Wendi 的鸡群有 20 只鸡，那么一天的最后一餐她需要给鸡喂多少杯饲料？

天工给出的解题思路：

最后天工大模型给出的答案是：Wendi 需要在一天的最后一餐中给鸡喂 20 杯饲料，以确保它们一天都吃饱。

GPT-3.5 给出的解题思路：

GPT-3.5给出的答案为：Wendi 需要在一天的最后一餐中给鸡喂 21 杯饲料，为错误的答案。

目前天工大模型仍属于内测阶段，以上评测暂未整合到天工AI搜索和天工AI助手，官方表示后续会将最好的基座部署上线，供用户体验。

微信关注我们

原文链接：https://www.oschina.net/news/258509

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Wine 8.16 开发版发布，重新实现微软已弃用的 DirectMusic API

Wine 8.16 最新开发版已发布。 Wine (Wine Is Not an Emulator) 是一个能够在多种兼容 POSIX 接口的操作系统（诸如 Linux、macOS 与 BSD 等）上运行 Windows 应用的兼容层。它不是像虚拟机或者模拟器一样模仿内部的 Windows 逻辑，而是将 Windows API 调用翻译成为动态的 POSIX 调用，免除了性能和其它一些行为的内存占用，能够干净地整合 Windows 应用到桌面。新版本主要变化：重新实现微软已弃用的 DirectMusic API 该 API 于 90 年代末作为 DirectX 的一部分开始实现。 Microsoft DirectMusic 是用于音乐和声音效果的 DirectX 组件。 DirectMusic 还充当 DirectSound 组件的高级接口。不过，早在 Windows Vista 时代，DirectMusic 就已被弃用，但仍然有许多旧的 Windows 软件存在，并且感兴趣的 Wine 用户/开发者渴望开始尝试。所以在 2023 年，围绕 DirectMusic 支持出现了新的 ...

2023-09-18

302

对于上周引发激烈争议的 "runtime fee" 收费政策，Unity 官方今日终于正式进行了回应。他们表示对收费政策带来的混乱和焦虑深表歉意，目前正在与团队成员、社区、客户和合作伙伴交流，听取各方意见，以及修改政策——过几天会公布。前几天 Unity 高管 Marc Whitten 已针对这一争议事件向外媒 Axios 进行了回复： Unity 公司实际上只会对第一次安装进行收费，但另一方面如果同一位用户在另一台不同的设备上安装游戏（例如在 PC 上安装后再在 Steam Deck 上安装），则依然会被计入收费。 Marc Whitten 还澄清了其他几点，包括游戏试玩 Demo 下载不会被计入收取 “运行费”，除非 “Demo 是包含在完整游戏下载中的一部分”，以及抢先体验游戏将被收费，而为慈善事业提供或纳入慈善的游戏将被免费除费用。延伸阅读： Unity 引擎明年起根据游戏安装量收费 (runtime fee) 游戏引擎开发商 Unity 收到死亡威胁走近 “收费门”：互相矛盾的服务条款导致 Unity 面临被起诉的风险

2023-09-18

339

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。