问答题:如何构建一套满足GPT-3的存储系统?
这几天GPT-3成为人工智能甚至整个科技圈最为热门的话题。作为著名人工智能科研公司 OpenAI 开发的文字生成 (text generation) 人工智能,GPT-3的相关论文在2020年5月份就已经发表,由于使用了45TB的数据,并采用了天文数字级别的1,750亿参数量而引起极大轰动。现在,GPT-3开始开放申请,获得资格的人将通过API来使用GPT-3。如果说软件定义一切,那么API就在定义软件。一些人在使用了GPT-3之后,对其赞不绝口:嗯,真香!
比如用GPT3做的这个页面生成器,只需要输入“给我一个长得像西瓜的按钮”,GPT3就会很快输出一个看上去真的很像西瓜的按钮。
从目前的应用来说,GPT-3 更像是一个更懂你的新的搜索引擎,传统的搜索引擎只是将信息归类后进行展现,而GPT-3 则是将信息进行了加工。仅就45TB的数据而论,如果一部电影按照2G大小来算的话,那么45T的数据相当于23000多部电影,每次GPT-3都相当于将这23000多部电影看一遍,然后写出一篇“影评”。
而写出这篇“影评”不是依靠作者的构思,而是依靠算力。算力可以看作是单位时间内的计算能力。从计算机诞生之日起,人们对算力的追求就没有停歇过,1958年集成电路的出现让算力实现了一次质的飞跃,近年来,随着CPU、GPU、NPU等单元部件算力的不断增强,算力更是得以成为数字经济时代的核心引擎之一。
做个比喻,如果说算力是心脏,那么数据就是血液,两者之间还需要一个良好的血液循环系统予以保证,而存储系统就可以看作这样的一个血液循环系统。那么,应该如何更好的构建这个血液循环系统呢?
首先,为了支撑强大的算力需要能够支持大规模的数据吞吐量;其次,需要更低的数据读写延迟以提升计算速度,再次,需要具有足够的弹性,保证算力峰值到来时数据容量的随时扩容。
如果从以上角度出发,那么一个适当的选择就是文件存储。以阿里云文件存储CPFS (Cloud Parallel File Storage)为例,CPFS是一个可完全托管、可扩展的并行文件存储系统,针对高性能计算场景的性能要求进行了深度优化,提供对数据毫秒级的访问和高聚合I/O、高IOPS的数据读写请求,可以用于AI深度训练、自动驾驶、基因计算、EDA仿真、石油勘探、气象分析、机器学习、大数据分析以及影视渲染等业务场景中。
首先, CPFS具有超高吞吐和IOPS。采用分布式的并行架构,数据条带化后均匀分布在存储集群上,可以实现计算节点并行访问,提供数百GB的吞吐和千万级的IOPS以及亚毫秒级时延;
其次,CPFS弹性可扩展。CPFS支持在线的扩容,由于所有数据均以条带化的方式存储并且支持扩容以后的自动负载平衡,可满足性能的线性增长并且即时利用扩容节点的吞吐和存储能力,满足业务增长需要的更多容量与性能的诉求。
目前CPFS已经在公共云和混合云环境中有了广泛的应用。
以阿里云弹性高性能计算云平台HPCaaS为例。该平台支持基于阿里云ECS、EGS弹性计算实例快速构建任意规模的并行计算集群,并根据用户需求动态增删节点个数和存储规模。首先,该方案用户只需购买EHPC的集群实例,就可以立刻获得相应数目的ECS、EGS、文件存储和搭配的RDS,OSS等服务。其次,用户可以根据初期使用集群规模生成集群,在运行时通过集群调度动态伸缩集群数目。
而在混合云环境中,CPFS推出了混合云CPFS存储。爱笔(北京)智能科技有限公司正是利用了混合云CPFS存储解决方案,构建云上云下多级存储池架构,解决计算机视觉、语音识别、自然语言理解、大数据分析等技术场景下的数据存储与管理问题,从而将人工智能的线上与线下场景中进行融合,实现业务场景的数字化、智能化。
目前,关于GPT-3的讨论还在继续, GPT-3母公司OpenAI的首席执行官Sam Altman也谦虚的说道“人工智能终将改变世界,但GPT3只是看到了一眼未来。我们还有很多事情要解决。”不过不可否认的是,大多数人对于GPT-3还是充满期待——人工智能的时代已经到来,而GPT-3的这一小步也许为整个人工智能行业迈出了一大步。
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
数据湖有新解!Apache Hudi 与 Apache Flink 集成
作者:王祥虎(Apache Hudi 社区) Apache Hudi 是由 Uber 开发并开源的数据湖框架,它于 2019 年 1 月进入 Apache 孵化器孵化,次年 5 月份顺利毕业晋升为 Apache 顶级项目。是当前最为热门的数据湖框架之一。 1. 为何要解耦 Hudi 自诞生至今一直使用 Spark 作为其数据处理引擎。如果用户想使用 Hudi 作为其数据湖框架,就必须在其平台技术栈中引入 Spark。放在几年前,使用 Spark 作为大数据处理引擎可以说是很平常甚至是理所当然的事。因为 Spark 既可以进行批处理也可以使用微批模拟流,流批一体,一套引擎解决流、批问题。然而,近年来,随着大数据技术的发展,同为大数据处理引擎的 Flink 逐渐进入人们的视野,并在计算引擎领域获占据了一定的市场,大数据处理引擎不再是一家独大。在大数据技术社区、论坛等领地,Hudi 是否支持使用 Flink 计算引擎的的声音开始逐渐出现,并日渐频繁。所以使 Hudi 支持 Flink 引擎是个有价值的事情,而集成 Flink 引擎的前提是 Hudi 与 Spark 解耦。 同时,纵观大数据领...
- 下一篇
此时此刻,非你莫属!SoloPi 贡献者活动正式开启
SoloPi贡献者活动正式开始了,欢迎大家踊跃报名,提供各种形式的贡献,我们为其中出众的贡献者准备了相当丰厚的奖品,并提供与测试大咖进行一对一交流的机会。 关于SoloPi SoloPi 是由支付宝终端质量技术部推出的一套移动端自动化解决框架,在无线化、非侵入、免 Root 的模式下,用户直接操控手机,即可完成自动化功能、性能、兼容性、以及稳定性测试工作,大大提升了测试同学的工作效率。 SoloPi 基于 AccessibilityService、ChromeDevToolsProtocol、图像识别三种模式实现了控件的精确查找能力,结合端上的用例录制和编辑功能,能够快速完成本地自动化用例生成。生成的自动化用例即可在本地回放,也可结合云测平台回放,还能够转换为 Appium/Macaca 等其他自动化框架脚本集成进现有的自动化回归流程中。 SoloPi 用例回放 活动&奖励规则 本次活动接受多种贡献方式,包括但不限于以下几类: 代码贡献:代码贡献遵循贡献流程,我们会审核贡献者提交的关于特性开发、测试用例开发和 Bug Fix 的 Pull Request。 项目推广:发布的任何...
相关文章
文章评论
共有0条评论来说两句吧...