赋能人工智能:Ray on vSphere 开源插件的发布
去年,机器学习和人工智能领域取得了爆炸性的进展。像 ChatGPT 这样的高质量生成式人工智能解决方案引起了公众的兴趣,并已延伸到商业领域。组织和个人都在考虑如何利用这项技术来加快影响力并取悦客户。
虽然这些通用模型非常出色,但在特定行业的使用案例中往往不够完美。公开可用的训练数据无法为模型提供解决每个企业特有用例所需的专业知识。为了满足这些需求,许多组织正在投资调优和训练自己的模型。为此,他们需要扩展他们的计算空间,使其超出工程师的笔记本电脑或现有的构建工具。数据科学家和机器学习工程师需要可帮助他们扩展工作负载的工具,使其可以操控访问与之匹配的计算资源。
为了应对这些挑战,我们高兴的宣布:VMware 与 Ray 的创建者 Anyscale 建立合作伙伴关系。Ray是一个针对机器学习工作负载进行了优化的分布式Python工作负载调度器,为训练和推理工作负载带来了无服务器式的扩展能力。在并行处理和分布式计算方面,Ray具有广泛的应用和出色的性能。
Anyscale 和 VMware 合作创建了一个开源插件,用于使用虚拟机在 vSphere 上运行 Ray。该插件使系统管理员能够为数据科学团队提供满足其需求的计算基础架构。当数据科学团队能够使用计算来运行支持其数据探索、清理和模型实验的工作负载时,企业就能缩短从原始数据到得到调优后差异化模型所需的时间,从而促进目标业务成果的实现。这过程如同DevOps,但这次的目标是将工作模型交付到生产中。
它是如何工作的?
Ray 集群包含一个头部节点和工作节点。
头部节点负责管理集群,并调整集群内工作节点的数量。这些分布式工作节点负责训练、微调和提供模型。
要开始工作,头部节点的 Autoscaler 需要了解它能提供多大的群集以及在哪里提供,这需要一个群集配置文件。
为了实现这一点,我们的插件扩展了Ray Autoscaler,使其能够直接与 vSphere 上的虚拟机协同工作。
为了协调 Ray 工作负载,Ray Autoscaler 插件会调用 vSphere 群集。vSphere 群集是一组主机,其中主机的资源成为群集资源的一部分。群集管理其中所有主机的资源。群集支持 vSphere High Availability (HA) 和 vSphere Distributed Resource Scheduler (DRS)。这些功能可确保 Ray 群集具有容错性,与其他关键任务工作负载隔离,并以最佳方式分配计算资源。
配置vSphere Provider
下图显示了与 vSphere 一起使用的 Ray 群集配置文件示例。在提供程序部分,我们必须将类型指定为 vSphere,并指定 vSphere 群集的凭据和部署 Ray 群集的数据存储。
此外,在工作者节点和头配置中,我们可以配置资源池将Ray Worker与其他工作负载隔离开。为了提高性能,我们还可以指定冻结虚拟机( Frozen VM)。这个被冻结的虚拟机将被用作即时克隆(Instant clone),以快速扩展工作节点。
下一步做什么?
我们今天分享的只是第一步。我们目前正在探索如何在数据中心空闲的时间利用未使用的计算来训练 ML 模型,使组织能够在不影响生产工作负载的情况下从其数据中心获得更多价值。这对地球也大有裨益!
我们已经准备好利用我们的 Ray on vSphere 插件迎接自动化的新时代,并简化对机器学习的访问。欢迎试用和反馈,请将问题发送至 rayonvmware@vmware.com。
本文作者:Ala Dewberry,OCTO xLabs 高级产品经理;Sean Huntley,OCTO 产品工程师。
内容来源|公众号:VMware 中国研发中心
有任何疑问,欢迎扫描下方公众号联系我们哦~

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Kurator,你的分布式云原生解决方案
本文分享自华为云社区《DTSE Tech Talk | 第40期:Kurator,你的分布式云原生解决方案》,作者:华为云社区精选。 什么是分布式云原生? 中国信通院给出的定义:分布式云原生是指通过云原生技术统一多云技术栈,提供业务价值的设计模式。 根据这个定义,我们延伸出以下几个问题: • 什么是云原生技术? CNCF给出的定义是,云原生技术有利于各组织在公有云、私有云和混合云等新型动态环境中,构建和运行可弹性扩展的应用。云原生的代表技术包括容器、服务网格、微服务、不可变基础设施和声明式API。 这些技术能够构建容错性好、易于管理和便于观察的松耦合系统。结合可靠的自动化手段,云原生技术使工程师能够轻松地对系统作出频繁和可预测的重大变更。 • 为什么需要统一多云技术栈? 多云多集群已经成为常态。全球各组织积极拥抱多云多集群。Gartner 机构预测分布式云在5-10年内进入稳定发展期,全球头部云服务商也在分布式云领域积极开展实践。涉及多个云环境的协调和整合,需要处理各种不同的技术栈和工具,同时还要保证数据的安全性和一致性。 多样化的云平台意味着更多的复杂性。统一多云技术栈可以为集群资源...
- 下一篇
What's new in Pika v3.5.0
时隔两年,Pika 社区正式发布经由社区 50 多人参与开发并在 360 生产环境验证可用的 v3.5.0 版本,新版本在提升性能的同时,也支持了 Codis 集群部署,BlobDB KV 分离,增加 Exporter 等新特性。 我们将详细介绍该版本引入的重要新特性。 1 去除 Rsync 在 v3.5.0 版本之前,Pika 使用 Rsync 工具进行引擎中存量数据的同步,Pika 进程启动时创建 Rsync 子进程。这种同步方式在实际使用中出现了一些问题,包括Pika 进程 crash 后重新拉起无法正常同步以及同步过程中 Rsync 进程无故退出等。在今年发布的 v3.5.0 版本中,我们在全量同步方案方面进行了重要的改进,摒弃了以往使用的 Rsync,实现了全新的数据同步方案,支持了断点续传,动态调节传输限速等特性,以确保同步过程更加稳定、可控。这些改进不仅增强了同步的可靠性,还为用户提供了更好的使用体验。 去除 Rsync 进程,使用自研全量同步方式 实现断点续传,传输限速功能 Pika 主从同步时,进行 master run_id 的检验 2 兼容更多 Redis 命令 ...
相关文章
文章评论
共有0条评论来说两句吧...