Cerebras 开源七个 GPT-3 模型,参数涵盖 1.11 亿到 130 亿
AI 芯片公司 Cerebras 宣布在 Apache-2.0 协议下开源了一个包含七个 GPT 模型的 Cerebras-GPT,参数涵盖 1.11 亿、2.56 亿、5.9 亿、13 亿、27 亿、67 亿和 130 亿。开放出来的内容包括模型架构、训练算法和权重,供研究以及商业社区免费使用。
“今天的发布旨在供任何人使用和复制......人工智能有可能改变世界经济,但它的访问越来越受到限制。最新的大型语言模型 —— OpenAI 的 GPT4 发布时没有关于其模型架构、训练数据、训练硬件或超参数的信息。公司越来越多地使用封闭数据集构建大型模型,并仅通过 API 访问提供模型输出。为了使 LLM 成为一种开放和可访问的技术,我们认为重要的是能够访问对研究和商业应用开放、可重现且免版税的最先进模型。”
根据介绍,这些模型使用 Chinchilla 公式进行训练,可为给定的计算预算提供最高的准确性。Cerebras-GPT 与迄今为止的任何公开可用模型相比,训练时间更快、训练成本更低,并且功耗更低。
Cerebras-GPT 在 Cerebras 所拥有的 Andromeda AI 超级计算机的 CS-2 系统上进行了几周的训练。“训练这七个模型使我们能够推导出新的 scaling law。Scaling laws 根据训练计算预算预测模型准确性,并在指导 AI 研究方面产生了巨大影响。据我们所知,Cerebras-GPT 是第一个预测公共数据集模型性能的 scaling law。”
大型语言模型可以大致分为两个阵营。第一组包括 OpenAI 的 GPT-4 和 DeepMind 的 Chinchilla 等模型,这些模型在私有数据上进行训练以达到最高水平的准确性;但是这些模型的训练权重和源代码不向公众开放。第二组包括 Meta 的 OPT 和 Eleuther 的 Pythia 等模型,它们是开源的,但没有以 compute-optimal 的方式进行训练。
Cerebras-GPT 则意在与 Pythia 互补,它共享相同的公共 Pile 数据集,旨在构建一个训练有效的 scaling law 和模型系列,涵盖各种模型尺寸。构成 Cerebras-GPT 的七个模型中的每一个都使用每个参数 20 个 tokens 进行训练;Cerebras-GPT 通过选择最合适的训练 tokens,最大限度地减少所有模型大小的单位计算损失。
研究人员评估了 Cerebras-GPT 在几个任务特定的语言任务上的表现,例如句子完成和问答。结果表明,Cerebras-GPT 为大多数常见的下游任务保持了最先进的训练效率。
Cerebras GPT 在 16 个 CS-2 系统上使用了标准数据并行进行训练。研究人员围绕 CS-2 设计了专门构建的 Cerebras Wafer-Scale Cluster,以实现轻松扩展。它使用称为 weight streaming 的 HW/SW 共同设计的执行,可以独立缩放模型大小和集群大小,而无需模型并行。介绍称,通过使用此架构,扩展到更大的集群就像更改配置文件中的系统数量一样简单。
研究人员还在一个名为 Andromeda 的 16x CS-2 Cerebras Wafer-Scale Cluster 上训练了所有 Cerebras-GPT 模型。使所有的实验都能快速完成,而不需要在 GPU集群上进行传统的分布式系统工程和模型并行调整。最重要的是,它使研究人员能够专注于 ML 的设计而不是分布式系统。“我们相信,轻松训练大型模型的能力是广大社区的关键推动因素,因此我们通过 Cerebras AI Model Studio 在云端提供了 Cerebras Wafer-Scale Cluster。”
Cerebras 联合创始人兼首席软件架构师 Sean Lie 称,由于很少有公司有资源在内部训练真正的大型模型,因此此次发布意义重大。“通常需要成百上千个 GPU,将七个经过全面训练的 GPT 模型发布到开源社区中,恰恰说明了 Cerebras CS-2 系统集群的效率。”
该公司表示,Cerebras LLM 因其开源性质而适用于学术和商业应用。它们还有一些优势,例如其训练权重产生了一个极其准确的预训练模型,可以用相对较少的额外数据为不同的任务进行调整;这使得任何人都可以基于很少的编程知识,创建一个强大的、生成性的 AI 应用程序。
更多详情可查看官方博客。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Bing Chat 支持在聊天界面回复图像和视频
微软已将图像和视频功能集成到 Bing Chat 的聊天中。在此之前,如果用户明确要求 Bing 提供图像或视频,比如“给我一些有关狗或猫的图片”,Bing Chat 只能回复一些包含相关图片的网站链接,仅限返回文本。 现在 AI 可能会响应用户的查询,直接在回复中返回图像或视频。比如查询狗狗图片,在推荐了网站之后,Bing Chat 还发送了一些相关的狗狗图片。 这些图片应该来自 Bing 搜索引擎的检索,如果点击图像下方的查看更多,则会转到 Bing 图片页面。 小编尝试要求 Bing 提供视频,这个功能有点问题:如果用中文询问,Bing Chat 打死都不发视频,还会理直气壮地说“我没办法在聊天框发视频!”。 但如果改用英文查询,它就可以在聊天窗口发送一些视频: Bing Chat 的图片和视频的查询功能应该都是 Bing 搜索引擎另一种形式的副本。因为直接从 Bing 中搜索相同关键词,得到的结果和该 AI 推荐的内容没有任何区别。另外,Bing Chat提供的图片和视频和解释文本是完全分离的,无法做到深度融合,比如发一张图片然后附带注释。 可以说,这个功能最大的作用是可以帮助...
- 下一篇
Blend2D —— 高性能 2D 矢量图形引擎
Blend2D 是一个用 C++ 编写的高性能 2D 矢量图形引擎,在 Zlib 许可证下发布。该引擎利用内置的 JIT 编译器在运行时生成优化的管道,并能够使用多线程来提高性能,超越单线程渲染。此外,该引擎还有一个新的光栅器,它提供了卓越的性能,同时质量可以与 AGG 和 FreeType 使用的光栅器相媲美。 易于使用的 API Blend2D 是用 C++ 编写的,但它同时提供 C 和 C++ API。 丰富的样式 Blend2D 提供了与 SVG 和 HTML <canvas> 定义的相似的绘画样式,包括纯色、渐变和图案。 合成与混合 Blend2D 支持所有 Porter & Duff 合成运算以及由 SVG、CSS 和 PDF 规范定义的各种混合模式。合成和混合模式可应用于任何渲染操作,包括填充、描边和图像块。
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Linux系统CentOS6、CentOS7手动修改IP地址
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Docker安装Oracle12C,快速搭建Oracle学习环境
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS关闭SELinux安全模块
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Hadoop3单机部署,实现最简伪集群
- CentOS6,7,8上安装Nginx,支持https2.0的开启