从大数据到AI,华为云存储加速企业大模型快速应用
摘要:AI与大数据算法不断发展,在生产中的应用也越来越广,而应用的场景除了对算法,软件架构要求越来越高外,也对底层IaaS(基础设施即服务)提出了新的挑战。
AI与大数据算法不断发展,在生产中的应用也越来越广,而应用的场景除了对算法,软件架构要求越来越高外,也对底层IaaS(基础设施即服务)提出了新的挑战。在7月8日的华为云开发者大会2023(Cloud)-云原生分论坛“从大数据到AI,华为云存储加速企业大模型快速应用”上,华为云存储服务产品部部长林超、叮咚买菜技术副总裁周祥军、趣丸科技数据服务负责人黄强、华为云存储服务产品部高级架构师姚博士等嘉宾分别分享了他们的见解。
林超结合他对业界的洞察,提出了华为云对大数据与AI时代存储服务的定义:「具备存算分离能力,提供多级加速与海量数据存储能力的高性价比存储底座」
进入AI时代,存储面临诸多挑战
在训练场景,用于训练的数据越来越多,L2级自动驾驶训练就需要400PB路采数据,而L3级别自动驾驶训练所需的路采数据量更为惊人。随着训练的数据量成倍增加,训练时元数据预热时间也变得越来越长,2023年车厂在进行L3级别自动驾驶训练时每次元数据预热的时间超过10小时,GPU长时间空载,造成算力大量浪费,而且在训练时GPU集群需要已亚ms的速度不断读取数据进行训练,这对存储的性能也是极大的挑战。另外,由于当前AI训练是以GPU卡为核心展开的,而客户的GPU卡往往既在线下部署也在线上部署,如何快速高效的为多元化部署的GPU提供数据存储服务也是一件非常有挑战的事。
在推理场景,随着AI在生产生活中的使用越来越广泛,AI已经成为社会高效运转的必要环节,人们对AI处理的速度要求越来越高。当前AI大模型一般是通用大模型,缺乏行业Know How,在面对特定领域、行业的需求时往往无法给出最优解,这给大模型在行业适配落地带来了很大的困难。另外随着AIGC在内容生产的占比越来越高,AIGC所带来的法律、道德、合规风险越来越大,如果不加以管理,AI必将成为不良内容滋生的温床。
针对上述挑战,华为云提出了其应对方案:
在AI训练环节,数据经过采集、上云、预处理、标注进入模型训练环节,模型再通过数据仿真、模型评估、模型部署进入推理环节。
华为云存储首先通过OBS对象存储构建统一数据湖来承载EB级海量的训练数据,并通过基于多种存储规格的数据智能分级功能降低50%的存储成本。同时OBS通过Posix语义支持预处理等环节,从而减少整个训练环节中数据在不同类型存储中传输的次数,提升整体效率。
同时在模型训练的关键环节,GPU集群对存储的性能有着极高的要求,华为云存储通过SFS Turbo在OBS统一数据与GPU集群之间构建高效加速层,提升AI训练效率,通过高效加速层,原本需要上百小时的元数据预热时间被缩短至30分钟,有效减少了GPU空闲时间。同时在训练中的数据读取时延也降低到了亚毫秒级别,训练效率相比直接对接数据湖提升3倍以上。而且SFS Turbo支持贴近GPU在线上、线下多元化部署,满足数据就近加速的需求。
在推理阶段,华为云存储重点优化了推理成本、推理性能、行业落地、内容合规三个痛点
通过构建弹性缓存,推理过程不在需要通过增加GPU在扩展内存,从而达到将大模型装载到内存的目的,弹性缓存池可以按需提供高性能的缓存空间,满足大模型的加载需求。行业落地的痛点是解决行业Know How的问题,如果使用私域数据、行业数据等对大模型进行重新训练,那么高昂的成本和漫长的时间都是客户无法承担的,通过引入向量存储,相当于在大模型的外面增加了行业Know How的外挂,无需重新训练大模型即可满足行业需求,而且部分问题在向量存储中即可闭环,无需推理,使得整个推理性能大幅提升100倍,而成本却降低了10倍。另外华为DWR数据工坊提供了全面的内容审核服务,可以确保AI推理所输出的内容满足合规要求,避免了由于使用AI带来的业务风险。
随后,叮咚买菜技术副总裁周祥军、趣丸科技数据服务负责人黄强、华为云存储服务产品部高级架构师姚博士也分别演讲了自己的见解。
周祥军的演讲主题为“云上叮咚,用科技让人们吃得好,让生活更美好”,在此议题中,他分享了叮咚买菜在华为云上的大数据能力建设案例,叮咚买菜通过运筹优化车辆线路调度,最终实现了品质确定、品类确定、时间确定的“人、货、运、仓”全链路数字化。
黄强分享了趣丸科技大数据+云原生加持下的用户运营系统建设,趣丸科技为解决用户运营过程中的触点多、数据量大、不确定性高和个性化诉求强的问题,最终利用大数据与云原生技术,提高了运营效率,保障了运营质量。
姚博士则从技术架构角度解读了华为云存储的一站式数据管理、存储、加速方案。华为云通过SFS Turbo与OBS联动提供了大容量、高可靠、低成本的数据持久化层和高效的缓存加速层。作为AI训练加速器的SFS Turbo通过MDS Turbo、CAT Cache和全路径软硬件优化的极致时延数据流传,最终实现了百万级 IOPS 的元数据加速,降低了训练过程中训练数据和checkpoint的读写时延,解决了百亿小文件的预热与数据加载加速问题。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
数据安全没保证?GaussDB(for Redis)为你保驾护航
摘要:GaussDB (for Redis)通过账号管理、权限隔离、高危命令禁删/重命名、安全IP免密登录、实例回收站等企业级特性,保障用户数据库数据和信息安全。 本文分享自华为云社区《数据安全没保证?GaussDB(for Redis)为你保驾护航》,作者: GaussDB 数据库。 近日,一些用户反馈使用的开源Redis中新增了几个未知来源的Key。工程师小伙伴分析发现,用户使用的开源Redis没有设置密码,很可能是遭到了Redis扩散病毒的攻击,表面上只是新增了几个未知的key,实际上甚至可能面临数据库信息丢失和记录篡改的问题! 作为一个重视技术的团队,保障用户的信息安全和使用体验始终是第一位的。对这次用户使用开源Redis遇到的问题,团队成员总结分析,列举出GaussDB (for Redis)精心打造的数据安全保护特性: 账号管理、数据库权限隔离; 高危命令禁用、重命名; 安全IP/网段开启免密登录; 实例回收站。 基于这些企业级安全特性,GaussDB (for Redis)在为用户提供稳定、可靠、便捷的使用体验的同时,全力为用户的数据安全保驾护航。 特性一:账号管理+权限...
- 下一篇
华为云MetaStudio全新升级,盘古数字人大模型助力数字人自由
摘要:基于盘古大模型能力,华为云MetaStudio数字内容生产线全新升级,推出数字人模型生成服务和模型驱动服务。 近日,华为开发者大会2023 ( Cloud ) 在东莞拉开帷幕。基于盘古大模型能力,华为云MetaStudio数字内容生产线全新升级,推出数字人模型生成服务和模型驱动服务,旨在通过数字人服务和技术赋能,赋能千行百业提升数字内容创作体验和效率。 AIGC正在重构数字内容生产模式,重新定义内容力 当前,数字人逐渐成为3D互联网时代各类应用的核心入口,进入千行百业。大家常见的数字人抖音直播,营业厅的数字人客服,还有各类综艺节目如湖南台《你好星期六》节目的综艺虚拟主持人小漾等等,多种场景应用层出不穷,新形象不断呈现。 在数字内容产业,内容力决定了企业的竞争力,它由生产力、创造力和知识力逐步叠加和演进而成。PGC时代,头部电影中有90%的内容是通过计算机来生成的。生产力,也就是算力的强度决定了内容力;UGC时代,超过90%的数字内容由个人用户产生,创作者来自于千行百业。在生产力基础上,增加了创造力,也就是行业的广度,共同决定内容力;当前,我们已经进入AI时代,AIGC正在重构数字...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Red5直播服务器,属于Java语言的直播服务器
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS8编译安装MySQL8.0.19