为什么说 AI 标准化和规模化应用来临?
袁进辉一流科技 CEO & 创始人,兼任之江实验室天枢开源开放人工智能平台架构师、北京智源研究院大模型技术委员会委员。
近日,OSCHINA 和 Gitee 联合发布了《2022 中国开源开发者报告》。一流科技 CEO & 创始人袁进辉在报告中对开源 AI 领域进行了解读,以下为原文。
开源吞噬软件 1.0,“开源 AI ”运动也正在席卷以数据驱动编程为特点的软件 2.0 时代。
从框架开源,数据集、算法开源,再到模型开源,开源极大推动了 AI 在技术、应用等方面的发展。比如,基于开源社区的孵化,2022 年最火热的 Stable Diffusion 模型在不到两个月的时间便流行开来,国内企业和研究机构也迅速跟进,比如 OneFlow 将 Stable Diffusion 的图片生成速度加速到 1 秒以内,IDEA 和智源研究院分别发布了中文版的 Stable Diffusion 和支持多种不同语言的 AltDiffusion。
更重要的是,开源模式使得 AI 标准化和规模化趋势开始成型,从算法的标准化开始,带来了软件标准化的机会,而硬件、技术平台、最佳实践也在标准化。
在 AI 算法模型方面,数据驱动人工智能的算法统一为神经网络,完成了算法的标准化。其中,Transformer 的发展呈现了统一深度学习算法的苗头,而依靠 Transformers 库起家的 HuggingFace 平台已发布超 10 万个开源预训练模型,大大降低了用户使用门槛,而当 AI 模型足够多时会进一步标准化,进而推动 AI 产业化进程。
在开源深度学习框架层面,API 接口正在标准化。其他框架的 API 设计都在学习 PyTorch。而在分布式编程方面,PyTorch 等其他框架的分布式编程接口也参考了 OneFlow 的 Global Tensor、SBP 的设计思路,这也彰显了国产框架的创新性和影响力。
硬件层面,虽然芯片市场打得如火如荼,但 API 设计层面也越来越类似。多数硬件厂商 API 的设计会参考英伟达的软件接口。图编译器层面也有一些通用组件出现,比如 MLIR,越来越多项目开始基于 MLIR 来构建深度学习编译器。
随着深度学习框架和硬件在内的基础设施的标准化,基础平台方面已经出现了 K8S、Docker 这些越来越标准化的解法,有的企业需要弹性扩容,有的需要私有云部署,有的需要扩容到公有云等,这需要多云的支持。通过提炼最佳实践提炼,形成了 MLOps 产品,而这正是工作流程标准化和平台标准化的体现,这也是今年 AI 领域最热门的趋势之一。
开源打破了很多技术壁垒,从框架开源到模型开源,必将进一步推动软件 2.0 时代 AI 技术的普惠化。未来,任何一家传统企业即使没有专业的 AI 科学家,借助这些开源工具和模型也能获得 AI 的能力。
《2022 中国开源开发者报告》报告由” 前沿开源技术领域解读 “ ” 中国开源创业观察 2022“,以及” 开发者画像分析 “ 三个章节组成。
在 “前沿开源技术领域解读” 部分,多位在其领域有所建树的一线开发者和开源商业化公司创始人,对目前国内外流行的前沿开源技术领域过去的发展和未来的趋势进行了深入的洞察,覆盖开源云原生、开源 AI、开源大前端、开源大数据、开源 DevOps、RISC-V、开源操作系统、开源数据库、编程语言九大领域。
欲了解更多报告内容,请点击:https://gitee.com/report/china-open-source-2022/

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
开源数据库赛道为何吸金?
近日,OSCHINA 和 Gitee 联合发布了 《2022 中国开源开发者报告》 。报告显示,在数据库、大数据、AI、云计算、DevOps、操作系统、中间件等多个技术领域中,围绕数据技术进行创业的开源企业最多,其中 22.86% 的企业集中在数据库领域,14.29% 的企业集中在大数据领域。同时,开源数据库赛道也在持续引领基于开源项目创业的融资热潮。 开源爱好者、Apache Doris 社区 Contributor 鲁大师在对此进行了解读,以下为原文。 鲁大师 开源爱好者、Apache Doris 社区 Contributor、前百度高级产品经理,一直致力于推广开源项目 Apache Doris。 作为有着近六十年发展历史的基础软件,开源数据库流行度在 2021 年才首次超过商业数据库,创造了新的历史。2022 年,开源数据库赛道持续引领基于开源项目创业的融资热潮,并且多集中于早期阶段。 其中不乏有多家基于开源数据库的创业公司在创业早期就获得巨额融资,包括基于分析型数据库 Apache Doris 的北京飞轮科技获超 3 亿元天使轮融资,基于时序数据库 Apache IoTDB ...
- 下一篇
开源方案低成本复现 ChatGPT 流程,仅需 1.6GB 显存即可体验
开源并行训练系统ColossalAI 表示,已低成本复现了一个 ChatGPT 训练的基本流程,包括 stage 1 预训练、stage 2 的奖励模型的训练,以及最为复杂的 stage 3 强化学习训练。具体亮点包括: 一个开源完整的基于 PyTorch 的 ChatGPT 等效实现流程,涵盖所有 3 个阶段,可以帮助你构建基于预训练模型的 ChatGPT 式服务。 提供了一个迷你演示训练过程供用户试玩,它只需要 1.62GB 的 GPU 显存,并且可能在单个消费级 GPU 上实现,单 GPU模型容量最多提升10.3 倍。 与原始 PyTorch 相比,单机训练过程最高可提升 7.73 倍,单 GPU 推理速度提升 1.42 倍,仅需一行代码即可调用。 在微调任务上,同样仅需一行代码,就可以在保持足够高的运行速度的情况下,最多提升单 GPU的微调模型容量 3.7 倍。 提供多个版本的单 GPU 规模、单节点多 GPU 规模和原始 1750 亿参数规模。还支持从 Hugging Face 导入 OPT、GPT-3、BLOOM 和许多其他预训练的大型模型到你的训练过程中。 Colossa...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- MySQL8.0.19开启GTID主从同步CentOS8
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Red5直播服务器,属于Java语言的直播服务器
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- SpringBoot2全家桶,快速入门学习开发网站教程