GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型 (MoE)
业内人士近日对 OpenAI 今年 3 月发布的 GPT-4 大模型进行了大揭秘,其中包括 GPT-4 模型架构、训练和推理的基础设施、参数量、训练数据集、token 数、成本、混合专家模型 (Mixture of Experts, MoE) 等非常具体的参数和信息。
文章作者之一正是此前爆料谷歌内部文件《我们没有护城河,OpenAI也没有》的 Dylan Patel。
下面介绍一下这篇揭秘 GPT-4 技术细节文章的主要内容。
文章开头就指出,OpenAI 之所以不 Open,不是为了保护人类不被 AI 毁灭,而是因为他们构建的大模型是可复制的,未来中国和美国的互联网大厂(比如谷歌、Meta、腾讯、百度、字节跳动),以及 AI 头部初创企业,都会有能力构建出可以媲美 GPT-4 甚至超越 GPT-4 的大模型。
而 OpenAI 最持久的护城河,就在于他们拥有真实用户的使用反馈、业内最顶尖的工程人才,以及先发优势带来的领先地位。
据介绍,GPT-4 在 120 层中总共包含了 1.8 万亿参数,而 GPT-3 只有约 1750 亿个参数。而为了保持合理的成本,OpenAI 采用 MoE 模型来进行构建。
具体而言,GPT-4 使用了 16 个混合专家模型 (mixture of experts),每个有 1110 亿个参数,每次前向传递路由经过两个专家模型。
此外,它有 550 亿个共享注意力参数,使用了包含 13 万亿 tokens 的数据集训练,tokens 不是唯一的,根据迭代次数计算为更多的 tokens。
GPT-4 预训练阶段的上下文长度为 8k,32k 版本是对 8k 微调的结果。如果是在云端进行训练,以 每 A100 小时 1 美元计算,那么一次的训练成本就高达 6300 万美元。不过今天的训练成本能降至 2150 万美元。
详情。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
ACM 发布生成式人工智能开发原则
美国生成式人工智能协会 (Association for Generative AI) 计算机器全球技术政策委员会 (ACM TPC) 发布了“生成式人工智能技术的开发、部署和使用原则”。共概述了八项原则,旨在促进有关生成和所有其他人工智能技术的公平、准确和有益的决策。 ACM 成立于 1947 年,号称是世界上最大的科学和教育计算协会,拥有约 110000 名学生和专业会员。他们认为,生成式 AI 日益强大或将对社会构成严重风险,目前的技术安全使用指南不足以确保可规避该技术可能带来的危害。 此次发布的原则中,有四项原则专门针对生成式 AI,另外四项原则改编自 TPC 2022 年的“负责任的算法系统原则声明”。 生成式 AI 特定原则 部署和使用的限制和指南:应与所有利益相关者协商,审查和应用书面或修订的法律和法规,以在需要时限制生成人工智能技术的部署和使用,以最大程度地减少危害。如果没有明确和充分的保障措施,包括“human in the loop”以及相关利益相关者之间的明确共识,即该系统的好处将大大超过其潜在的负面影响,则不应允许任何高风险的人工智能系统运行。一种方法是定义风...
- 下一篇
百度iOS端长连接组件建设及应用实践
作者 | 百度消息中台团队 导读 在过去的十年里,移动端技术飞速发展,移动应用逐渐成为主要的便捷访问和使用互联网的方式,承接了越来越多的业务和功能,这也意味着对移动端和服务器之间的通信效率和稳定性提出了更高的要求。为了实现更高效的实时通信和数据同步,长连接逐渐成为一种关键技术,通过维持客户端和服务器之间的持久连接,实现了双方实时数据交换,避免了频繁的建连和断连开销,从而提高用户体验、服务稳定性、可靠性等方面的表现。 本文旨在探讨长连接技术在移动端的实践,针对百度iOS端在建设长连接过程中的技术选型和整体架构逻辑将做重点展开。同时结合IM即时通讯案例的介绍和分析,展示长连接是如何在移动应用领域为类似业务场景提供解决方案的。 本文将分为五个主要部分。首先,对长连接技术进行概述,包括定义、与短连接的对比以及在移动互联网领域的常见应用。接下来,会简单介绍百度长连接服务,包括搭建的背景以及建成后提供的服务核心主流程。然后,将重点讨论百度iOS端长连接SDK搭建过程中的挑战和解决方案,包含协议的选择、DNS解析优化、长连接保活机制的设计等。紧接着,以IM即时通讯场景中的长连接实践为例,展示了长连接...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- SpringBoot2全家桶,快速入门学习开发网站教程
- MySQL8.0.19开启GTID主从同步CentOS8
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- CentOS6,7,8上安装Nginx,支持https2.0的开启