GPT-4 模型架构泄露：包含 1.8 万亿参数、采用混合专家模型 (MoE)-低调大师

GPT-4 模型架构泄露：包含 1.8 万亿参数、采用混合专家模型 (MoE)

2023-07-12 1158

业内人士近日对 OpenAI 今年 3 月发布的 GPT-4 大模型进行了大揭秘，其中包括 GPT-4 模型架构、训练和推理的基础设施、参数量、训练数据集、token 数、成本、混合专家模型 (Mixture of Experts, MoE) 等非常具体的参数和信息。

文章作者之一正是此前爆料谷歌内部文件《我们没有护城河，OpenAI也没有》的 Dylan Patel。

下面介绍一下这篇揭秘 GPT-4 技术细节文章的主要内容。

文章开头就指出，OpenAI 之所以不 Open，不是为了保护人类不被 AI 毁灭，而是因为他们构建的大模型是可复制的，未来中国和美国的互联网大厂（比如谷歌、Meta、腾讯、百度、字节跳动），以及 AI 头部初创企业，都会有能力构建出可以媲美 GPT-4 甚至超越 GPT-4 的大模型。

而 OpenAI 最持久的护城河，就在于他们拥有真实用户的使用反馈、业内最顶尖的工程人才，以及先发优势带来的领先地位。

据介绍，GPT-4 在 120 层中总共包含了 1.8 万亿参数，而 GPT-3 只有约 1750 亿个参数。而为了保持合理的成本，OpenAI 采用 MoE 模型来进行构建。

具体而言，GPT-4 使用了 16 个混合专家模型 (mixture of experts)，每个有 1110 亿个参数，每次前向传递路由经过两个专家模型。

此外，它有 550 亿个共享注意力参数，使用了包含 13 万亿 tokens 的数据集训练，tokens 不是唯一的，根据迭代次数计算为更多的 tokens。

GPT-4 预训练阶段的上下文长度为 8k，32k 版本是对 8k 微调的结果。如果是在云端进行训练，以每 A100 小时 1 美元计算，那么一次的训练成本就高达 6300 万美元。不过今天的训练成本能降至 2150 万美元。

详情。

微信关注我们

原文链接：https://www.oschina.net/news/249106/gpt-4-architecture-infrastructure

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

ACM 发布生成式人工智能开发原则

美国生成式人工智能协会 (Association for Generative AI) 计算机器全球技术政策委员会 (ACM TPC) 发布了“生成式人工智能技术的开发、部署和使用原则”。共概述了八项原则，旨在促进有关生成和所有其他人工智能技术的公平、准确和有益的决策。 ACM 成立于 1947 年，号称是世界上最大的科学和教育计算协会，拥有约 110000 名学生和专业会员。他们认为，生成式 AI 日益强大或将对社会构成严重风险，目前的技术安全使用指南不足以确保可规避该技术可能带来的危害。此次发布的原则中，有四项原则专门针对生成式 AI，另外四项原则改编自 TPC 2022 年的“负责任的算法系统原则声明”。生成式 AI 特定原则部署和使用的限制和指南：应与所有利益相关者协商，审查和应用书面或修订的法律和法规，以在需要时限制生成人工智能技术的部署和使用，以最大程度地减少危害。如果没有明确和充分的保障措施，包括“human in the loop”以及相关利益相关者之间的明确共识，即该系统的好处将大大超过其潜在的负面影响，则不应允许任何高风险的人工智能系统运行。一种方法是定义风...

2023-07-12

930

作者 | 百度消息中台团队导读在过去的十年里，移动端技术飞速发展，移动应用逐渐成为主要的便捷访问和使用互联网的方式，承接了越来越多的业务和功能，这也意味着对移动端和服务器之间的通信效率和稳定性提出了更高的要求。为了实现更高效的实时通信和数据同步，长连接逐渐成为一种关键技术，通过维持客户端和服务器之间的持久连接，实现了双方实时数据交换，避免了频繁的建连和断连开销，从而提高用户体验、服务稳定性、可靠性等方面的表现。本文旨在探讨长连接技术在移动端的实践，针对百度iOS端在建设长连接过程中的技术选型和整体架构逻辑将做重点展开。同时结合IM即时通讯案例的介绍和分析，展示长连接是如何在移动应用领域为类似业务场景提供解决方案的。本文将分为五个主要部分。首先，对长连接技术进行概述，包括定义、与短连接的对比以及在移动互联网领域的常见应用。接下来，会简单介绍百度长连接服务，包括搭建的背景以及建成后提供的服务核心主流程。然后，将重点讨论百度iOS端长连接SDK搭建过程中的挑战和解决方案，包含协议的选择、DNS解析优化、长连接保活机制的设计等。紧接着，以IM即时通讯场景中的长连接实践为例，展示了长连接...

2023-07-13

858

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。