基于阿里云 Serverless 容器服务轻松部署企业级 AI 应用-低调大师

基于阿里云 Serverless 容器服务轻松部署企业级 AI 应用

2023-06-13 900

作者：元毅、坤仑

数禾科技 AI 模型服务基于云原生架构，为不同业务环节提供智能决策支持。随着业务的快速发展，摆在数禾面前的难题是支撑模型计算的底层应用资源无法根据请求量来调整机器资源支持运算能力。同时，随着模型在线推理服务数量的增加，数禾的模型服务也变得越来越庞大、臃肿，难以管理。这种状况不仅导致了资源浪费，还增加了维护和升级的成本。

为了解决这些“顽疾”，数禾科技采用阿里云 ASK 部署线上模型，无需 K8s 节点管理，根据实时流量动态使用 POD，资源成本节省 60%；通过 ASK Knative 服务，解决了数禾模型的灰度发布和多版本并存问题；得益于ASK 自动伸缩和缩容到 0 的优势，降低运行成本，大幅提升服务可用性。

目前，该系统已上线部署 500+AI 模型服务，每天能够提供上亿次查询决策服务，具备无限横向扩展的能力。同时，数禾科技 AI 模型服务支持自动调整容量，满足不同业务压力下的需求，从而保障业务的稳定运行。不仅如此，采用云原生架构方案，平均部署周期由之前的1天缩短至 0.5天，大幅提升了研发迭代效率，从而加速商业化应用的进程，为金融业务提供新的增长动力。

关于 Serverless Kubernetes（ASK）

Kubernetes（K8s）作为一个开源容器编排系统，被广泛运用于云原生应用的开发与管理。其优势在于降低运维成本，提高运维效率，形成了以 K8s 为核心的云原生生态。然而使用 K8s 常常需要用户面对的问题较多，例如资源规划、容量规划、Node 与 Pod 的亲和关系、容器网络规划、节点生命周期管理、操作系统版本、容器运行时版本兼容性等，这些问题显然不是用户所希望关心的，用户期望做的事情是专注在自身的业务逻辑，尽可能不关心这些基础设施。Serverless 的核心理念在于让开发者更聚焦业务逻辑，减少对基础设施的关注。因此我们将 K8s 复杂性下沉，提供 Serverless Kubernetes 的产品能力。

那么 Serverless Kubernetes 有哪些优势呢？主要包括以下三个方面：免运维、自动弹性、按需付费。

首先，Serverless Kubernetes 组件全托管免运维，支持自动升级 k8s 版本。其次，该产品具有极致弹性能力。可以根据业务需求，自动弹性、秒级扩容，从而在满足业务增长时自动容量规划。最后，使用 Serverless Kubernetes 的用户，只需根据实际使用量按需计费。除此之外，ASK 还提供了新增的 U 实例规格支持，统一支持多款处理器，相比上一代主售实例降价高达 40%。

为了让更多用户体验最佳实践，我们特地将其打造成了一个体验场景，配合热门开源的 AI 项目 Stable Diffusion，用户可以通过真实的云上环境，轻松体验容器化部署具备企业级弹性能力的 AI 模型。

在 ASK 中部署 Stable Diffusion

随着生成型 AI 技术的能力提升，越来越多的注意力放在了通过 AI 模型提升研发效率上。作为 AIGC（AI Generated Content）领域的知名项目 Stable Diffusion，可以帮助用户快速、准确地生成想要的场景及图片。不过当前直接在 K8s 使用 Stable Diffusion 面临如下问题：

单个 Pod 处理请求的吞吐率有限，如果多个请求转发到同一个 Pod，会导致服务端过载异常，因此需要精准的控制单个 Pod 请求并发处理数。
GPU 资源很珍贵，期望做到按需使用资源，在业务低谷及时释放 GPU 资源

基于上面两个问题，我们提供 ASK + Knative 解决方案，可以做到基于并发精准弹性，缩容到 0，资源按需使用，打造生产可用的 Stable Diffusion 服务。

方案

这里我们在 ASK 中提供 Knative + MSE 方式解决上述问题：

基于 MSE 网关，扩展 Knative 弹性插件机制，实现基于并发数精准弹性
支持缩容到 0，按需使用自动弹性
多版本管理、镜像加速，助力模型快速发布迭代

实践

接下来我们介绍如何在 ASK 中部署 Stable Diffusion 服务。

服务部署

在集群列表页面，单击目标集群 knative-sd-demo 进入集群信息页面，然后在左侧导航栏，选择应用>Knative。
在 Knative 页面，单击服务管理页签，然后单击使用模板创建。
在命名空间下拉列表中，选择 default，在示例模板下拉列表中，选择 Resouce-Knative Service，将以下消息处理服务的 YAML 示例粘贴至模板，然后单击创建。

默认创建一个名为 knative-sd-demo 的服务。

apiVersion: serving.knative.dev/v1
kind: Service
metadata:
  name: knative-sd-demo
  annotations:
    serving.knative.dev.alibabacloud/affinity: "cookie"
    serving.knative.dev.alibabacloud/cookie-name: "sd"
    serving.knative.dev.alibabacloud/cookie-timeout: "1800"
spec:
  template:
    metadata:
      annotations:
        autoscaling.knative.dev/class: mpa.autoscaling.knative.dev
        autoscaling.knative.dev/maxScale: '10'
        autoscaling.knative.dev/targetUtilizationPercentage: "100"
        k8s.aliyun.com/eci-use-specs: ecs.gn5-c4g1.xlarge,ecs.gn5i-c8g1.2xlarge,ecs.gn5-c8g1.2xlarge  
    spec:
      containerConcurrency: 1
      containers:
      - args:
        - --listen
        - --skip-torch-cuda-test
        - --api
        command:
        - python3
        - launch.py
        image: yunqi-registry.cn-shanghai.cr.aliyuncs.com/lab/stable-diffusion@sha256:64999ff1aba706f65a2234d861d46318f7d58e2790b31ace0d567a96e65b617c
        imagePullPolicy: IfNotPresent
        ports:
        - containerPort: 7860
          name: http1
          protocol: TCP
        name: stable-diffusion
        readinessProbe:
          tcpSocket:
            port: 7860
          initialDelaySeconds: 5
          periodSeconds: 1
          failureThreshold: 3

参数说明：

支持 Cookie 会话保持：serving.knative.dev.alibabacloud/affinity
支持多种 GPU 规格配置：k8s.aliyun.com/eci-use-specs
支持并发数设置：containerConcurrency

在服务管理页签，刷新页面后，当 knative-sd-demo 的状态变为成功时，表明 SD 服务部署成功。

服务访问并进行压测

部署压测服务 portal-server，用于 Stable Diffusion 效果展示并发起压测。

在 Knative 页面，单击服务管理页签，然后单击使用模板创建。
在命名空间下拉列表中，选择 default，在示例模板下拉列表中，选择自定义，将以下 portal-server 压测服务的 YAML 示例粘贴至模板，然后单击创建。

---
apiVersion: apps/v1
kind: Deployment
metadata:
  labels:
    app: portal-server
  name: portal-server
spec:
  replicas: 1
  selector:
    matchLabels:
      app: portal-server
  template:
    metadata:
      labels:
        app: portal-server
    spec:
      serviceAccountName: portal-server
      containers:
        - name: portal-server
          image: registry-vpc.cn-beijing.aliyuncs.com/acs/sd-yunqi-server:v1.0.2
          imagePullPolicy: IfNotPresent
          env:
            - name: MAX_CONCURRENT_REQUESTS
              value: "5"
            - name: POD_NAMESPACE
              value: "default"
          readinessProbe:
            failureThreshold: 3
            periodSeconds: 1
            successThreshold: 1
            tcpSocket:
              port: 8080
            timeoutSeconds: 1
---
apiVersion: v1
kind: Service
metadata:
  annotations:
    service.beta.kubernetes.io/alibaba-cloud-loadbalancer-address-type: internet
    service.beta.kubernetes.io/alibaba-cloud-loadbalancer-instance-charge-type: PayByCLCU
  name: portal-server
spec:
  externalTrafficPolicy: Local
  ports:
    - name: http-80
      port: 80
      protocol: TCP
      targetPort: 8080
    - name: http-8888
      port: 8888
      protocol: TCP
      targetPort: 8888
  selector:
    app: portal-server
  type: LoadBalancer
---
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRole
metadata:
  name: pod-list-cluster-role
rules:
  - apiGroups: [""]
    resources: ["pods"]
    verbs: ["list"]
  - apiGroups: ["networking.k8s.io"]
    resources: ["ingresses"]
    verbs: ["get"]
---
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRoleBinding
metadata:
  name: pod-list-cluster-role-binding
roleRef:
  apiGroup: rbac.authorization.k8s.io
  kind: ClusterRole
  name: pod-list-cluster-role
subjects:
  - kind: ServiceAccount
    name: portal-server
    namespace: default
---
apiVersion: v1
kind: ServiceAccount
metadata:
  name: portal-server
  namespace: default

选择网络>服务， 在服务页面，查看 portal-server 压测服务，获取访问 IP 为 123.56.XX.XX。

在浏览器中输入 http://123.56.XX.XX，然后在该页面单击 Stable Diffusion 跳转至 Stable Diffusion 访问页面。

a. Stable Diffusion 访问页面如下所示。例如，在如下文本框中输入 cat，然后单击 Generate，将展示与输入有关的图片信息。

b. 在压测访问页面，设置并发数为 5，总请求数为 20，然后单击开始压测，查看压测的结果。

压测期间，可以看到创建了 5 个 Pod，并且每个请求均会生成一个图片，图片生成后将展示到页面中。

查看可观测大盘

此外在 Knative 提供了开箱即用的可观测能力，在 Knative 页面，单击监控大盘页签。即可看到 Stable Diffusion 服务的请求量（Request Volume）、请求成功率（Success Rate）、4xx（客户端错误）、5xx（服务器端错误）和Pod扩缩容趋势的监控数据。

在 Response Time 区域，查看 Knative 的响应延迟数据，包括 P50、P90、P95 和 P99。

小结

基于 ASK Knative 并发精准弹性，缩容到 0，多版本管理等功能，可以轻松部署企业级 AI 服务。当前已在阿里云云起实验提供《基于 ASK 轻松部署企业级 Stable Diffusion》动手实践，欢迎体验：

https://developer.aliyun.com/adc/scenario/de33e7d3065949f3b81db292b2dca5ea

微信关注我们

原文链接：https://my.oschina.net/u/3874284/blog/10081307

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Koordinator 最佳实践系列：精细化 CPU 编排

作者：乔普、申信介绍在云原生环境中，集群提供者常常将不同类型的工作负载部署在同一个集群中，利用不同业务的不同峰值效果，实现资源分时复用，避免资源浪费。然而，不同类型负载之间混合部署常常会导致资源竞争和相互干扰。最为典型的场景便是在线和离线负载的混合部署。当离线较多的占用计算资源时，在线负载的响应时间就会受到影响；当在线长时间较多的占用计算资源时，离线负载的任务完成时间不能得到保证。这种现象属于 Noisy Neighbor 问题。根据混合部署的程度、资源类型的不同，解决该问题有许多不同的思路。Quota 管理可从整个集群维度限制负载的资源使用量，Koordinator 在这方面提供了多层次弹性 Quota 管理功能 [ 1] 。单机维度上看，CPU、内存、磁盘 IO，网络资源都有可能被不同负载共享。Koordinator 在 CPU、内存上已经提供了一些资源隔离和保障的能力，磁盘 IO 和网络资源方面的相关能力正在建设中。本文主要介绍当不同类型工作负载混合部署在同一个节点上时，Koordinator 如何帮助负载之间（在线和在线、在线和离线）协同地共享 CPU 资源。问题描述...

2023-06-13

818

作者：之浩、展逸企业在 Kubernetes 上运行 AI、大数据应用已成主流，资源弹性和开发运维效率得到显著提升的同时，计算存储分离架构也带来了挑战：网络延迟高、网络费用贵、存储服务带宽不足等。以 AI 训练、基因计算、工业仿真等高性能计算场景为例，需要在短时间内并发执行海量计算，多计算实例共享访问文件系统的同一数据源。很多企业使用阿里云文件存储 NAS 或 CPFS 服务，挂载到阿里云容器服务 ACK 运行的计算任务上，实现数千台计算节点的高性能共享访问。然而，随着算力规模和性能提升、以及模型规模和工作负载复杂度的增加，在云原生的机器学习和大数据场景下，高性能计算对并行文件系统的数据访问性能和灵活性要求也越来越高。如何能更好地为容器化计算引擎提供弹性和极速的体验，成为了存储的新挑战。为此，我们推出了弹性文件客户端 EFC（Elastic File Client），基于阿里云文件存储服务的高扩展性、原生 POSIX 接口和高性能目录树结构，打造云原生存储系统。并且，EFC 与云原生数据编排和加速系统 Fluid 结合，实现数据集的可见性、弹性伸缩、数据迁移、计算加速等，为云...

2023-06-13

906

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。