云存储在AIOps、数字人以及训练推理场景的最佳实践-低调大师

云存储在AIOps、数字人以及训练推理场景的最佳实践

2023-12-14 433

在以AIGC大模型为代表的技术新浪潮中，存储作为数据基础设施，将在数据采集、训练与推理、应用部署、内容审核与协同等多个关键环节发挥重要作用，助力 AI 创新加速。据IDC调研显示，67%的中国企业已经开始探索AIGC在企业内的应用机会或已经开始进行资金投入。

12月2日，阿里云存储团队、通义实验室、阿里云培训中心在深圳粤海国际化企业服务交流中心联合举办了云存储技术实战营之数据+AI专场沙龙，吸引了众多开发者和企业代表的关注。来自阿里云存储、达摩院、日志服务的专家就AIGC技术和企业出海案例进行了讲解，帮助企业了解最新云计算以及AI技术的具体落地，为企业高质量发展以及业务出海提供有益借鉴。

1 可观测场景下AIOps实践

随着数字化建设的深入推进，我们进入了移动开发的碎片化时代，不仅要从研发角度考虑问题，还要考虑系统的稳定性和运营需求，如流量、客户增长、安全审计等。AI注重通用能力和对话理解，可广泛应用于各行各业中。而AI Agent可以帮助在特定场景下训练分身，降低工作量。

无论是开发运维、安全还是运营，所有工作的过程（如数据采集、预处理、决策智能）和步骤都大体相似。运维和运营工作可以拆解成几个阶段，包括观测指标、存储数据、分析展示、判断决策等。Gartner 报告指出，到 2026 年，成功应用可观测性的企业中，有 70% 的企业将实现更短的决策延迟，从而为目标业务或IT流程带来竞争优势。

阿里云资深技术专家简志指出，系统分析与决策智能的两个重要步骤是数据采集和预处理，在开发和运维领域，Logging（日志）、Metrics（指标）和Tracing（调用链）是最典型的三种模态数据。通过对Logging、Tracing和其他数据的关联分析，可以覆盖大部分运营安全需求，提高对系统的感知。日志服务SLS可将 Log、Metric、Trace 等数据进行统一存储和融合分析，并具备自动巡检、异常实时通知、根因定位等能力，辅助企业快速定位问题。

不难发现，可观测性建设的核心关注点在数据的采集、存储、分析环节。阿里云SLS可观测数据分析平台，提供了多种数据接入方式，并能够支持多个开源协议。时序数据建立基础模型算法可以实现对流量数据的聚合、周期性分析和削峰填谷。通过日志分析和Trace技术解决系统调用链定位问题的方法可以提高用户体验。通过构建知识图谱并应用大语言模型，可以帮助回答常见问题并解放繁重的工作负担。未来需要整理和沉淀领域知识，提升AI的理解能力。

2 基于FaceChain的AI人像写真生成实践

传统的人像摄影通常需要高端设备和专业的技能，是用光的艺术。而AI写真则通过图像处理与神经网络算法，就可以生成细节纤毫毕现的图片。借助AI软件工具，技术小白可根据偏好需求生成各种类型的照片，写真、证件照等等都不在话下。甚至，AI写真还能够自动化地进行后期调整，让构图、光影、影调更为和谐，让照片看起来更具有层次感和美感。

在Stable Diffusion中，可以通过对少量输入图像进行文生图训练的方式将输入图像的信息注入到LoRA模型中。FaceChain 集成了最强大的开源文生图模型 SDXL1.0，是一个可以用来打造个人数字形象的深度学习模型工具，支持上百种写真风格。通过prompt自定义能力，即可允许用户进行DIY。

个人写真模型的能力分为训练与推断两个阶段：在训练阶段，用户仅需要提供最低一张照片即可获得属于自己的个人形象数字替身，整个过程持续约4-5分钟。训练完成后，进入推断阶段，结合不同的风格LoRA 模型和写真模版，可以在1分钟左右生成超乎想象空间的个人写真作品。除了单人写真外， FaceChain 也支持生成多人写真。结合衣物与场景，FaceChain 还可实现虚拟试衣的功能。

重阳节期间，FaceChain 团队探索了AIGC技术在社区老人身上的应用，帮助他们生成属于自己的婚纱照。目前，魔搭已经实现了1.0和1.5版本的人像生成技术，以及无限风格写真和模板写真功能。团队还计划融入更多时尚设计，实现无需训练的人物写真技术。此外，他们也推进了强化学习训练框架，并将推广更具有可玩性的人像视频技术。

3 云上AI应用训练与推理的存储最佳实践

日就月将，学有缉熙于光明。大模型作为机器学习领域的尖端代表，其研发并非一日之功。机器学习的工作流程可大致分为数据采集、数据准备、模型训练和模型推理四个阶段，每个阶段对于数据存储的要求都不尽相同，这无疑给存储带来了机会和挑战。

阿里云技术专家浪远指出，闯过算力关，才能拿到大模型竞赛的入场券。在AI训练过程中，CheckPoint耗时会直接影响算力利用率。为了解决这个问题，可以使用更高性能的存储系统，如并行文件系统。阿里云的并行文件系统CPFS具有高吞吐率和高IOPS，可以满足大规模数据存储和读取的需求，有利于提升训练效率。

作为一款高性能的并行文件存储，文件存储CPFS通过将数据打散访问，提高了计算节点的存储数据性能。它通过将查询数据并行化，加快了数据访问速度；使用分布式原数据作为地图，避免了数据瓶颈；采用高速网络和优化的磁盘切片技术，提升了系统性能。并且文件存储CPFS实现了与OSS之间数据双向流动，数据集可预加载至CPFS以提升训练效率，冷数据可归档至OSS降低成本。致力于推动大模型应用落地的百川智能，就使用了CPFS智算版和OSS搭建大模型服务。

在AI推理场景中，GPU对数据的读取和训练有些不同。细而言之，在推理中，数据主要是大文件的大I/O读取，要的其实是一种burst的大单流和大聚合带宽，很少涉及数据写入。而且很多开源模型需要通过网络直接上传到存储系统中，所以许多阿里云用户会使用OSS作为模型库的存储。为了减少数据导入的时间，OSS通过更大分条适配、清浊分离、动态集群调度将默认吞吐能力提升10倍。LibLib通过采用阿里云OSS、NAS，构建了统一AIGC存储服务，加速业务的商业化。

此外，阿里云在OSS上构建了OSS加速器功能，通过OSS加速器看到的数据和OSS中的数据是强一致的。当前，加速器功能正在向2.0版本演进。在2.0版本中，整个服务将实现serverless化，开发者可以完全按需使用，大幅降低起步门槛。为LibLib构建统一AIGC存储服务

结语：人工智能技术的创新迭代驱动了应用场景的进一步落地，以智能决策、多模态、AI大模型为代表的热点为市场带来了更多想象力和可能性。同时，企业对自身“数字化”、“数智化”转型的积极推动催生出对AI技术的多元化需求。阿里云将帮助更多企业和开发者在AIGC时代开疆扩土。

原文链接

本文为阿里云原创内容，未经允许不得转载。

微信关注我们

原文链接：https://my.oschina.net/yunqi/blog/10321561

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

AI浪潮下，大模型如何在音视频领域运用与实践？

视频云大模型算法「方法论」。刘国栋｜演讲者在AI技术发展如火如荼的当下，大模型的运用与实践在各行各业以千姿百态的形式展开。音视频技术在多场景、多行业的应用中，对于智能化和效果性能的体验优化有较为极致的要求。如何运用好人工智能提升算法能力，解决多场景业务中的具体问题，需要创新地探索大模型技术及其应用方式。本文由LiveVideoStackCon2023深圳站演讲《AI新范式下，阿里云视频云大模型算法实践》整理而成，演讲者为阿里云智能高级算法专家刘国栋，分享阿里云视频云的大模型算法实践。《AI新范式下，阿里云视频云大模型算法实践》主题分享，包含如下四个部分： 01 音视频AI发展趋势与业务对AI算法的要求首先我们看第一部分：音视频AI发展趋势与业务对AI算法的要求。当下，音视频服务已广泛应用于互娱、广电传媒、教育、金融等各种行业，对场景的渗透也越来越深。这些行业、场景对智能化和体验的追求愈来愈高，同时用户希望用得起、更普惠。完成这样的目标，AI可以发挥重要作用，这已成为行业共识。随着AIGC的发展，音视频领域的AI技术也呈现出了新的趋势，即对AI技术的通用性、理解能力、生成能...

2023-12-14

427

数据分布是数据库的存储和计算关键设计之一，不同业务场景下不同的数据分布会有数量级的性能差异。现代分布式数据库系统数据分布在多节点上，对数据分布提出了更多挑战。本文主要openGemini为例，介绍在现代分布式数据库上进行高性能数据分布设计范式，主要包括分区键、分片键、主键和排序键等的设计范式。分区键分区是SMP架构数据库系统开始使用的数据分布技术。 SMP:SymmetricMulti-Processor，即对称多处理器架构现代数据库系统通常使用PARTITION BY来控制分区，比如按时间（datetime）分区 PARTITION BY datetime 根据设定的分区字段值，将数据分布到不同的分区中。分区是物理存储单元，存储了不同范围区间的数据。分区键设计范式：分区键值域连续且呈均匀分布。在Log, trace, event, metric等可观测性业务场景中，时间字段是作为分区键的最佳选择。 > show shards name: mst +---------+-----+-------------+----------------------+------...

2023-12-14

388

资源下载

更多资源

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。