Alluxio AI 全新产品发布:无缝对接低成本对象存储 AI 训练解决方案
(2023 年 10 月 19 日,北京)Alluxio 作为一家承载各类数据驱动型工作负载的数据平台公司,现推出全新的 Alluxio Enterprise AI 高性能数据平台, 旨在满足人工智能 (AI) 和机器学习 (ML) 负载对于企业数据基础设施不断增长的需求。 Alluxio Enterprise AI 平台可综合优化企业 AI 和分析基础设施的性能、数据可访问性、可扩展性和成本效益,助力生成式 AI、计算机视觉、自然语言处理、大语言模型和高性能数据分析等下一代数据密集型应用的发展。
为保持竞争力并在竞争中脱颖而出,各家企业都在全力推进数据和 AI 基础设施的现代化。在此过程中,企业家们也意识到传统的数据基础设施已经无法匹配下一代数据密集型 AI 负载的需求。在 AI 项目推进中经常遭遇的各类挑战,诸如性能低下、数据可访问性差、GPU 稀缺、数据工程复杂以及资源未充分利用等,都严重妨碍了企业获取数据价值。 Gartner® 研究称,“可操作 AI 的价值在于能够在企业的各种环境下进行快速开发、部署、调整和维护。考虑到工程复杂性和更快的市场响应需求,开发较为灵活的 AI 工程数据流,构建能够在生产中进行自适应的 AI 模型均至关重要” ,“到 2026 年,采用 AI 工程来构建和管理自适应 AI 系统的企业,将在 AI 模型可操作性方面至少超越同行 25%。”
Alluxio 创始人兼 CEO 李浩源表示:“Alluxio 用最先进的大数据和 Al 平台为全球头部企业客户赋能,今天我们又向前迈出了一大步”, “Alluxio Enterprise AI 为客户提供高效的 AI 解决方案,帮助企业加速 AI 工作负载并最大限度地获取数据价值。未来的企业领导者将知道如何利用变革性 AI 来推进数据驱动,通过最新技术来构建和维护 AI 基础设施,实现超高性能、无缝访问和便捷管理。”
此次新版发布后,Alluxio 即从一种产品扩展到两种产品组合——Alluxio Enterprise AI 和 Alluxio Enterprise Data,全面满足分析和 AI 的多样化需求。Alluxio Enterprise AI 作为一款全新产品,建立在 Alluxio 企业版多年积累的分布式系统经验上,采用了针对 AI/ML 负载优化的新架构。 Alluxio Enterprise Data 是 Alluxio 企业版大数据方向的下一代版本(与 Alluxio Enterprise AI 平行),并将继续成为专注分析负载企业的理想选择。
加速端到端机器学习工作流
Alluxio Enterprise AI 使得企业的 AI 基础设施能够在现有数据湖上实现高性能运行、无缝数据访问、可扩展且经济高效。它能帮助数据和 AI 领域的领导者和从业者实现 AI 项目的四个关键目标:
- 高性能模型训练和部署,快速产生业务成效;
- 跨区域和跨云负载可无缝访问数据;
- 可无限扩展,已经互联网巨头内部严格测试;
- 无需使用昂贵的专用存储,在现有技术栈上即可部署,确保投资回报最大化。
企业使用 Alluxio Enterprise AI 后,预期训练速度可比使用提供商业服务的对象存储快达 20 倍,模型服务速度提升高达 10 倍,GPU 利用率达 90%以上,AI 基础设施成本节约高达 90%。
Alluxio Enterprise AI 拥有包含去中心化元数据的分布式系统架构,可消除访问海量小文件(常见于 AI 负载)时的性能瓶颈。无论文件大小或数量如何,都能确保具备超越传统架构的无限扩展性。与传统分析不同,分布式缓存是根据 AI 负载 I/O 模式量身定制的。此外,还支持分析负载以及从数据摄取到 ETL(提取、转换、加载)、预处理、训练和服务的完整机器学习工作流 。
Alluxio Enterprise AI 包含以下重要特性:
- 性能出色的模型训练和模型服务——Alluxio Enterprise AI 显著提升企业在现有数据湖上的模型训练和服务性能。用于模型训练的强化 API 集可实现优于商业化对象存储 20 倍的性能。对于模型服务,Alluxio 提供超高并发性,在将离线训练集群中的模型用于在线推理时实现高达 10 倍的速度提升。
- 适合 AI 工作负载 I/O 模式的智能分布式缓存——Alluxio Enterprise AI 的分布式缓存功能使得 AI 引擎能够通过高性能 Alluxio 缓存(而非缓慢的数据湖存储)来读写数据。 Alluxio 的智能缓存策略专门针对 AI 引擎的 I/O 模式量身定制,包括大文件顺序访问、大文件随机访问和海量小文件访问。该优化帮助需要大量数据的 GPU 实现高吞吐和低延迟。训练集群持续从高性能分布式缓存中获取数据,可实现 90%以上的 GPU 利用率。
- 跨本地和云环境的 AI 工作负载实现无缝数据访问 - Alluxio Enterprise AI 为企业提供了统一的管理界面,可以轻松管理跨不同基础设施环境的 AI 工作负载。该产品为机器学习工作流提供了真实的数据源,从根本上消除了大型企业数据湖孤岛的瓶颈。通过 Alluxio Enterprise AI 这一标准数据访问层,企业可以在不同业务部门和地理位置之间实现数据的无缝共享。
- 经过大规模严格测试的全新分布式系统架构- Alluxio Enterprise AI 平台构建在创新的去中心化架构 DORA(去中心化对象存储库架构)之上。该架构为 AI 工作负载提供了无限扩展的基础,允许 AI 平台通过包括 Amazon S3 在内的商业化对象存储处理多达 1000 亿个对象。该新架构借助 Alluxio 在分布式系统方面的成熟专业知识,解决了系统可扩展性、元数据管理、高可用性和性能方面不断增长的挑战。
Enterprise Strategy Group 分析师 Mike Leone 表示:“随着组织在整个业务范围内扩展 AI 的应用,优化下一代工作负载过程中的性能、成本和 GPU 利用率变得至关重要” ,“Alluxio 拥有极具优势的产品,能真正帮助数据和 AI 团队实现更高的性能、无缝的数据访问,以及模型训练和模型服务的便捷管理。”
“我们与 Alluxio 合作密切,Allxuio 平台对我们的数据基础设施至关重要,”Aunalytics 分析云工程总监 Rob Collins 表示, “Aunalytics 对于 Alluxio 新推出的针对企业 AI 的分布式系统十分期待,并看好新产品在 AI 行业的巨大潜力。”
“公司内部训练的大语言模型为我们的问答应用和推荐引擎提供支持,极大地增强了用户体验和参与度”,知乎数据平台团队软件工程师胡梦宇表示, “在我们的 AI 基础设施中,Alluxio 处于核心地位。在使用 Alluxio 作为数据访问层后,我们的模型训练性能提升了 3 倍,部署性能提升了 10 倍,GPU 利用率翻倍。Alluxio 的 Enterprise AI 平台采用全新的 DORA 架构,能支持访问海量小文件,对此我们十分期待。在 AI 浪潮即将到来的时刻,Alluxio 新产品让我们在支持 AI 应用方面更有信心。”
在机器学习工作流中部署 Alluxio
Gartner 研究显示,数据可访问性和数据量/复杂性是组织应用 AI 技术中遇到的三大难题之一。 Alluxio Enterprise AI 可以添加到由 AI 计算引擎和数据湖存储组成的已有 AI 基础设施中。 Alluxio 位于计算和存储中间,可以在机器学习工作流中跨模型训练和模型服务工作,从而实现最大速度和最优成本。例如,将 PyTorch 作为训练和服务引擎, Amazon S3 为现有数据湖:
- 模型训练:当用户训练模型时,PyTorch 数据加载器从虚拟本地路径/mnt/alluxio_fuse/training_datasets 加载数据集。数据加载器不会直接从 S3 加载数据,而是从 Alluxio 缓存加载。在训练过程中,缓存的数据集将在多个 epoch 中使用,因此整个训练速度不再受制于访问 S3 而产生的瓶颈。也就是说,Alluxio 通过缩短数据加载来加速训练,消除 GPU 空闲等待时间,提高 GPU 利用率。模型训练完成后,PyTorch 通过 Alluxio 将模型文件写入 S3。
- 模型服务:最新训练的模型需要部署到推理集群。多个 TorchServe 实例同时从 S3 并发读取模型文件。Alluxio 会缓存这些来自 S3 的最新模型文件,并以低延迟提供给推理集群。因此,最新模型一旦可用时,下游的 AI 应用即可将其用于推理。
平台与现有系统集成
要将 Alluxio 与现有平台集成,用户可以在计算引擎和存储系统之间部署 Alluxio 集群。在计算引擎侧,Alluxio 可与 PyTorch、Apache Spark、TensorFlow 和 Ray 等流行的机器学习框架无缝集成。企业可以通过 REST API、POSIX API 或 S3 API 将 Alluxio 与这些计算框架集成。
在存储侧,Alluxio 可连接位于任何位置(本地、云端或两者兼有)的各类文件系统或对象存储。支持的存储系统包括 OSS、COS、BOS、OBS、Amazon S3、Google GCS、Azure Blob Storage、MinIO、Ceph、HDFS 等。
Alluxio 可在本地和云端、物理机或容器化环境中运行。支持的云平台包括阿里云、腾讯云、百度云、华为云、AWS、GCP、Azure Cloud 等。
下载资源
Alluxio Enterprise AI 下载链接:https://www.alluxio.io/download/
AI Infra Day
在美西时间 10 月 25 日的 AI Infra Day 上,Alluxio 将首次公开展示其最新发布的 Alluxio Enterprise AI 平台。AI Infra Day 是面向开发者的线上活动,主要探讨构建高性能、可扩展且经济高效的 AI 基础设施中的挑战及各种方案。特邀嘉宾包括 Wanchao Liang(Meta )、 Sally (Mihyoung) Lee(Uber) 和范斌(Alluxio)。活动现已开放报名:https://www.alluxio.io/ai-infra-day-2023/。
关于 Alluxio
Alluxio 是全球领先的针对分析和 AI 的高性能数据平台提供商,可加速企业 AI 产品价值变现,并最大化基础设施的投资回报率。Alluxio 数据平台位于计算与存储系统之间,能够在数据工作流的各个阶段为数据平台上的工作负载提供统一视图。无论数据位于何处,该平台均可提供高性能的数据访问,简化数据工程,提高 GPU 利用率,并降低云计算和存储成本。企业无需使用专用存储,即可大幅加速模型训练和模型服务,并在现有数据湖上构建 AI 基础设施。
Alluxio 在头部投资者的支持下, 为全球科技、互联网、金融和电信企业提供服务,目前全球排名前 10 的互联网公司中有 9 家在使用 Alluxio。了解更多信息,请访问 http://www.alluxio.com.cn。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
antd-crud v1.0.0 发布,一个 React 增删改查高阶组件
antd-crud 一个基于 React + Ant.Design 的增删改查组件。 特征 1、极轻量,只依赖于 Ant.Design 再无其他任何依赖 2、支持基本的【增删改查】和【批量删除】功能 3、支持搜索、自定义分页和自定义排序等功能 4、支持刷新、导出 Excel、数据打印、行高设置等功能 5、更多的 DIY 配置 已完成功能 基本增删改查 分页加载 搜索面板 批量删除 数据刷新 EXCEL 导出 行高设置 打印功能 待完善功能 列设置功能 非表单形式展示的查看页面数据化 编辑或查看页面可选 Modal 或者 Drawer 编辑页面和查看页面分组设置 编辑页面自定义布局 编辑和列表在同一个页面的布局选择 开始使用 npm i @codeflex/antd-crud function App() { const columns: ColumnsConfig<Account> = [ { title: '姓名', dataIndex: 'name', key: 'name', placeholder:"请输入姓名", supportSear...
- 下一篇
Spring Boot 3.1.5 发布
Spring Boot 3.1.5 现已发布,此版本包括62 个错误修复、文档改进和依赖项升级。 Noteworthy Changes 已更正spring.jms.listener.concurrency的行为,以匹配文档 (#37180)。如果你在设置spring.jms.listener.concurrency时未同时设置 spring.jms.listener.max-concurrency,建议在升级时查看你的配置。 Bug Fixes 与自定义集合类型绑定的构造函数不起作用#37941 @Order不适用于 (CommandLine|Application)Runner@Bean方法#37938 测试类上的@ComponentScan会在创建测试上下文时被处理,但不会包含在上下文的缓存键中#37924 Restarter在测试中造成内存泄漏#37920 当扫描发现的@WebServlet被注释为@MultipartConfig时,AOT 处理失败#37883 Gradle 插件使用即将弃用的 API 来获取和设置文件权限#37881 使用 lazy initializatio...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Red5直播服务器,属于Java语言的直播服务器
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS8编译安装MySQL8.0.19