基于阿里云 Serverless 容器服务轻松部署企业级 AI 应用
作者:元毅、坤仑
数禾科技 AI 模型服务基于云原生架构,为不同业务环节提供智能决策支持。随着业务的快速发展,摆在数禾面前的难题是支撑模型计算的底层应用资源无法根据请求量来调整机器资源支持运算能力。同时,随着模型在线推理服务数量的增加,数禾的模型服务也变得越来越庞大、臃肿,难以管理。这种状况不仅导致了资源浪费,还增加了维护和升级的成本。
为了解决这些“顽疾”,数禾科技采用阿里云 ASK 部署线上模型,无需 K8s 节点管理,根据实时流量动态使用 POD,资源成本节省 60%;通过 ASK Knative 服务,解决了数禾模型的灰度发布和多版本并存问题;得益于ASK 自动伸缩和缩容到 0 的优势,降低运行成本,大幅提升服务可用性。
目前,该系统已上线部署 500+AI 模型服务,每天能够提供上亿次查询决策服务,具备无限横向扩展的能力。同时,数禾科技 AI 模型服务支持自动调整容量,满足不同业务压力下的需求,从而保障业务的稳定运行。不仅如此,采用云原生架构方案,平均部署周期由之前的1天缩短至 0.5天,大幅提升了研发迭代效率,从而加速商业化应用的进程,为金融业务提供新的增长动力。
关于 Serverless Kubernetes(ASK)
Kubernetes(K8s)作为一个开源容器编排系统,被广泛运用于云原生应用的开发与管理。其优势在于降低运维成本,提高运维效率,形成了以 K8s 为核心的云原生生态。然而使用 K8s 常常需要用户面对的问题较多,例如资源规划、容量规划、Node 与 Pod 的亲和关系、容器网络规划、节点生命周期管理、操作系统版本、容器运行时版本兼容性等,这些问题显然不是用户所希望关心的,用户期望做的事情是专注在自身的业务逻辑,尽可能不关心这些基础设施。Serverless 的核心理念在于让开发者更聚焦业务逻辑,减少对基础设施的关注。因此我们将 K8s 复杂性下沉,提供 Serverless Kubernetes 的产品能力。
那么 Serverless Kubernetes 有哪些优势呢?主要包括以下三个方面:免运维、自动弹性、按需付费。
首先,Serverless Kubernetes 组件全托管免运维,支持自动升级 k8s 版本。其次,该产品具有极致弹性能力。可以根据业务需求,自动弹性、秒级扩容,从而在满足业务增长时自动容量规划。最后,使用 Serverless Kubernetes 的用户,只需根据实际使用量按需计费。除此之外,ASK 还提供了新增的 U 实例规格支持,统一支持多款处理器,相比上一代主售实例降价高达 40%。
为了让更多用户体验最佳实践,我们特地将其打造成了一个体验场景,配合热门开源的 AI 项目 Stable Diffusion,用户可以通过真实的云上环境,轻松体验容器化部署具备企业级弹性能力的 AI 模型。
在 ASK 中部署 Stable Diffusion
随着生成型 AI 技术的能力提升,越来越多的注意力放在了通过 AI 模型提升研发效率上。作为 AIGC(AI Generated Content)领域的知名项目 Stable Diffusion,可以帮助用户快速、准确地生成想要的场景及图片。不过当前直接在 K8s 使用 Stable Diffusion 面临如下问题:
- 单个 Pod 处理请求的吞吐率有限,如果多个请求转发到同一个 Pod,会导致服务端过载异常,因此需要精准的控制单个 Pod 请求并发处理数。
- GPU 资源很珍贵,期望做到按需使用资源,在业务低谷及时释放 GPU 资源
基于上面两个问题,我们提供 ASK + Knative 解决方案,可以做到基于并发精准弹性,缩容到 0,资源按需使用,打造生产可用的 Stable Diffusion 服务。
方案
这里我们在 ASK 中提供 Knative + MSE 方式解决上述问题:
- 基于 MSE 网关,扩展 Knative 弹性插件机制,实现基于并发数精准弹性
- 支持缩容到 0, 按需使用自动弹性
- 多版本管理、镜像加速,助力模型快速发布迭代
实践
接下来我们介绍如何在 ASK 中部署 Stable Diffusion 服务。
服务部署
-
在集群列表页面,单击目标集群 knative-sd-demo 进入集群信息页面,然后在左侧导航栏,选择应用>Knative。
-
在 Knative 页面,单击服务管理页签,然后单击使用模板创建。
-
在命名空间下拉列表中,选择 default,在示例模板下拉列表中,选择 Resouce-Knative Service,将以下消息处理服务的 YAML 示例粘贴至模板,然后单击创建。
默认创建一个名为 knative-sd-demo 的服务。
apiVersion: serving.knative.dev/v1 kind: Service metadata: name: knative-sd-demo annotations: serving.knative.dev.alibabacloud/affinity: "cookie" serving.knative.dev.alibabacloud/cookie-name: "sd" serving.knative.dev.alibabacloud/cookie-timeout: "1800" spec: template: metadata: annotations: autoscaling.knative.dev/class: mpa.autoscaling.knative.dev autoscaling.knative.dev/maxScale: '10' autoscaling.knative.dev/targetUtilizationPercentage: "100" k8s.aliyun.com/eci-use-specs: ecs.gn5-c4g1.xlarge,ecs.gn5i-c8g1.2xlarge,ecs.gn5-c8g1.2xlarge spec: containerConcurrency: 1 containers: - args: - --listen - --skip-torch-cuda-test - --api command: - python3 - launch.py image: yunqi-registry.cn-shanghai.cr.aliyuncs.com/lab/stable-diffusion@sha256:64999ff1aba706f65a2234d861d46318f7d58e2790b31ace0d567a96e65b617c imagePullPolicy: IfNotPresent ports: - containerPort: 7860 name: http1 protocol: TCP name: stable-diffusion readinessProbe: tcpSocket: port: 7860 initialDelaySeconds: 5 periodSeconds: 1 failureThreshold: 3
参数说明:
- 支持 Cookie 会话保持:serving.knative.dev.alibabacloud/affinity
- 支持多种 GPU 规格配置:k8s.aliyun.com/eci-use-specs
- 支持并发数设置:containerConcurrency
- 在服务管理页签,刷新页面后,当 knative-sd-demo 的状态变为成功时,表明 SD 服务部署成功。
服务访问并进行压测
部署压测服务 portal-server,用于 Stable Diffusion 效果展示并发起压测。
-
在 Knative 页面,单击服务管理页签,然后单击使用模板创建。
-
在命名空间下拉列表中,选择 default,在示例模板下拉列表中,选择自定义,将以下 portal-server 压测服务的 YAML 示例粘贴至模板,然后单击创建。
--- apiVersion: apps/v1 kind: Deployment metadata: labels: app: portal-server name: portal-server spec: replicas: 1 selector: matchLabels: app: portal-server template: metadata: labels: app: portal-server spec: serviceAccountName: portal-server containers: - name: portal-server image: registry-vpc.cn-beijing.aliyuncs.com/acs/sd-yunqi-server:v1.0.2 imagePullPolicy: IfNotPresent env: - name: MAX_CONCURRENT_REQUESTS value: "5" - name: POD_NAMESPACE value: "default" readinessProbe: failureThreshold: 3 periodSeconds: 1 successThreshold: 1 tcpSocket: port: 8080 timeoutSeconds: 1 --- apiVersion: v1 kind: Service metadata: annotations: service.beta.kubernetes.io/alibaba-cloud-loadbalancer-address-type: internet service.beta.kubernetes.io/alibaba-cloud-loadbalancer-instance-charge-type: PayByCLCU name: portal-server spec: externalTrafficPolicy: Local ports: - name: http-80 port: 80 protocol: TCP targetPort: 8080 - name: http-8888 port: 8888 protocol: TCP targetPort: 8888 selector: app: portal-server type: LoadBalancer --- apiVersion: rbac.authorization.k8s.io/v1 kind: ClusterRole metadata: name: pod-list-cluster-role rules: - apiGroups: [""] resources: ["pods"] verbs: ["list"] - apiGroups: ["networking.k8s.io"] resources: ["ingresses"] verbs: ["get"] --- apiVersion: rbac.authorization.k8s.io/v1 kind: ClusterRoleBinding metadata: name: pod-list-cluster-role-binding roleRef: apiGroup: rbac.authorization.k8s.io kind: ClusterRole name: pod-list-cluster-role subjects: - kind: ServiceAccount name: portal-server namespace: default --- apiVersion: v1 kind: ServiceAccount metadata: name: portal-server namespace: default
- 选择网络>服务, 在服务页面,查看 portal-server 压测服务,获取访问 IP 为 123.56.XX.XX。
- 在浏览器中输入 http://123.56.XX.XX,然后在该页面单击 Stable Diffusion 跳转至 Stable Diffusion 访问页面。
a. Stable Diffusion 访问页面如下所示。例如,在如下文本框中输入 cat,然后单击 Generate,将展示与输入有关的图片信息。
b. 在压测访问页面,设置并发数为 5,总请求数为 20,然后单击开始压测,查看压测的结果。
压测期间,可以看到创建了 5 个 Pod,并且每个请求均会生成一个图片,图片生成后将展示到页面中。
查看可观测大盘
此外在 Knative 提供了开箱即用的可观测能力,在 Knative 页面,单击监控大盘页签。即可看到 Stable Diffusion 服务的请求量(Request Volume)、请求成功率(Success Rate)、4xx(客户端错误)、5xx(服务器端错误)和Pod扩缩容趋势的监控数据。
在 Response Time 区域,查看 Knative 的响应延迟数据,包括 P50、P90、P95 和 P99。
小结
基于 ASK Knative 并发精准弹性,缩容到 0,多版本管理等功能,可以轻松部署企业级 AI 服务。当前已在阿里云云起实验提供《基于 ASK 轻松部署企业级 Stable Diffusion》动手实践,欢迎体验:
https://developer.aliyun.com/adc/scenario/de33e7d3065949f3b81db292b2dca5ea

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Koordinator 最佳实践系列:精细化 CPU 编排
作者:乔普、申信 介绍 在云原生环境中,集群提供者常常将不同类型的工作负载部署在同一个集群中,利用不同业务的不同峰值效果,实现资源分时复用,避免资源浪费。然而,不同类型负载之间混合部署常常会导致资源竞争和相互干扰。最为典型的场景便是在线和离线负载的混合部署。当离线较多的占用计算资源时,在线负载的响应时间就会受到影响;当在线长时间较多的占用计算资源时,离线负载的任务完成时间不能得到保证。这种现象属于 Noisy Neighbor 问题。 根据混合部署的程度、资源类型的不同,解决该问题有许多不同的思路。Quota 管理可从整个集群维度限制负载的资源使用量,Koordinator 在这方面提供了多层次弹性 Quota 管理功能 [ 1] 。单机维度上看,CPU、内存、磁盘 IO,网络资源都有可能被不同负载共享。Koordinator 在 CPU、内存上已经提供了一些资源隔离和保障的能力,磁盘 IO 和网络资源方面的相关能力正在建设中。 本文主要介绍当不同类型工作负载混合部署在同一个节点上时,Koordinator 如何帮助负载之间(在线和在线、在线和离线)协同地共享 CPU 资源。 问题描述...
- 下一篇
为数据弹性而生,阿里云云原生存储再提速
作者:之浩、展逸 企业在 Kubernetes 上运行 AI、大数据应用已成主流,资源弹性和开发运维效率得到显著提升的同时,计算存储分离架构也带来了挑战:网络延迟高、网络费用贵、存储服务带宽不足等。 以 AI 训练、基因计算、工业仿真等高性能计算场景为例,需要在短时间内并发执行海量计算,多计算实例共享访问文件系统的同一数据源。很多企业使用阿里云文件存储 NAS 或 CPFS 服务,挂载到阿里云容器服务 ACK 运行的计算任务上,实现数千台计算节点的高性能共享访问。 然而,随着算力规模和性能提升、以及模型规模和工作负载复杂度的增加,在云原生的机器学习和大数据场景下,高性能计算对并行文件系统的数据访问性能和灵活性要求也越来越高。 如何能更好地为容器化计算引擎提供弹性和极速的体验,成为了存储的新挑战。 为此,我们推出了弹性文件客户端 EFC(Elastic File Client),基于阿里云文件存储服务的高扩展性、原生 POSIX 接口和高性能目录树结构,打造云原生存储系统。并且,EFC 与云原生数据编排和加速系统 Fluid 结合,实现数据集的可见性、弹性伸缩、数据迁移、计算加速等,为云...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- CentOS8安装Docker,最新的服务器搭配容器使用
- Hadoop3单机部署,实现最简伪集群
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS8编译安装MySQL8.0.19