基于 ACK Fluid 的混合云优化数据访问（五）：自动化跨区域中心数据分发-低调大师

基于 ACK Fluid 的混合云优化数据访问（五）：自动化跨区域中心数据分发

2023-09-25 396

前文回顾：

本系列将介绍如何基于 ACK Fluid 支持和优化混合云的数据访问场景，相关文章请参考：

《基于 ACK Fluid 的混合云优化数据访问（二）：搭建弹性计算实例与第三方存储的桥梁》

《基于 ACK Fluid 的混合云优化数据访问（三）：加速第三方存储的读访问，降本增效并行》

《基于 ACK Fluid 的混合云优化数据访问（四）：将第三方存储目录挂载到 Kubernetes，提升效率和标准化》

在之前的文章中，我们讨论了混合云场景下 Kubernetes 与数据相结合的 Day 1：解决数据接入的问题，实现云上计算和线下存储的连接。在此基础上，ACK Fluid 进一步解决了数据访问的成本和性能问题。而进入 Day 2，当用户真的在生产环境使用该方案时，最主要的挑战就是运维側如何处理多区域集群的数据同步。

概述

许多企业出于性能、安全、稳定性和资源隔离的目的，会在不同区域建立多个计算集群。而这些计算集群需要远程访问唯一中心化的数据存储。比如随着大语言模型的逐渐成熟，基于其的多区域推理服务也逐渐成为各个企业需要支持的能力，就是这个场景的具体实例，它有不小的挑战：

多计算集群跨数据中心手动操作数据同步，非常耗时
以大语言模型为例，参数多文件大，数量多，管理复杂：不同业务选择不同的基础模型和业务数据，因此最终模型存在差异。
模型数据会根据业务输入不断做更新迭代，模型数据更新频繁
模型推理服务启动慢，拉取文件时间长：大型语言模型的参数规模相当巨大，体积通常很大甚至达到几百 GB，导致拉取到 GPU 显存的耗时巨大，启动时间非常慢。
模型更新需要所有区域同步更新，而在过载的存储集群上进行复制作业严重影响现有负载的性能。

ACK Fluid 除了提供通用存储客户端的加速能力，还提供了定时和触发式数据迁移和预热能力，简化数据分发的复杂度。

节省网络和计算成本：跨区流量成本大幅降低，计算时间明显缩短，少量增加计算集群成本；并且可以通过弹性进一步优化。
应用数据更新大幅加速：由于计算的数据访问在同一个数据中心或者可用区内完成通信，延时降低，且缓存吞吐并发能力可线性扩展。
减少复杂的数据同步操作：通过自定义策略控制数据同步操作，降低数据访问争抢，同时通过自动化的方式降低运维复杂度。

演示

本演示介绍如何通过 ACK Fluid 的定时预热机制更新用户不同区域的计算集群可以访问的数据。

前提条件

已创建 ACK Pro 版集群，且集群版本为 1.18 及以上。具体操作，请参见创建 ACK Pro 版集群[1]。
已安装云原生 AI 套件并部署 ack-fluid 组件。重要：若您已安装开源 Fluid，请卸载后再部署 ack-fluid 组件。
未安装云原生 AI 套件：安装时开启 Fluid 数据加速。具体操作，请参见安装云原生 AI 套件[2]。
已安装云原生 AI 套件：在容器服务管理控制台[3]的云原生 AI 套件页面部署 ack-fluid。
已通过 kubectl 连接 Kubernetes 集群。具体操作，请参见通过 kubectl 工具连接集群[4]。

背景信息

准备好 K8s 和 OSS 环境的条件，您只需要耗费 10 分钟左右即可完成 JindoRuntime 环境的部署。

步骤一：准备 OSS Bucket 的数据

1. 执行以下命令，下载一份测试数据。

$ wget https://archive.apache.org/dist/hbase/2.5.2/RELEASENOTES.md

2. 将下载的测试数据上传到阿里云 OSS 对应的 Bucket 上，上传方法可以借助 OSS 提供的客户端工具 ossutil。具体操作，请参见安装 ossutil[5]。

$ ossutil cp RELEASENOTES.md oss://<bucket>/<path>/RELEASENOTES.md

步骤二：创建Dataset和JindoRuntime

1. 在创建 Dataset 之前，您可以创建一个 mySecret.yaml 文件来保存 OSS 的 accessKeyId 和 accessKeySecret。

创建 mySecret.yaml 文件的 YAML 样例如下：

apiVersion: v1
kind: Secret
metadata:
  name: mysecret
stringData:
  fs.oss.accessKeyId: xxx
  fs.oss.accessKeySecret: xxx

2. 执行以下命令，生成 Secret。

$ kubectl create -f mySecret.yaml

3. 使用以下 YAML 文件样例创建一个名为 dataset.yaml 的文件，且里面包含两部分：

创建一个 Dataset，描述远端存储数据集和 UFS 的信息。
创建一个 JindoRuntime，启动一个 JindoFS 的集群来提供缓存服务。

apiVersion: data.fluid.io/v1alpha1
kind: Dataset
metadata:
  name: demo
spec:
  mounts:
    - mountPoint: oss://<bucket-name>/<path>
      options:
        fs.oss.endpoint: <oss-endpoint>
      name: hbase
      path: "/"
      encryptOptions:
        - name: fs.oss.accessKeyId
          valueFrom:
            secretKeyRef:
              name: mysecret
              key: fs.oss.accessKeyId
        - name: fs.oss.accessKeySecret
          valueFrom:
            secretKeyRef:
              name: mysecret
              key: fs.oss.accessKeySecret
  accessModes:
    - ReadOnlyMany
---
apiVersion: data.fluid.io/v1alpha1
kind: JindoRuntime
metadata:
  name: demo
spec:
  replicas: 1
  tieredstore:
    levels:
      - mediumtype: MEM
        path: /dev/shm
        quota: 2Gi
        high: "0.99"
        low: "0.8"
  fuse:
   args:
    - -okernel_cache
    - -oro
    - -oattr_timeout=60
    - -oentry_timeout=60
    - -onegative_timeout=60

步骤三：创建支持定时运行的 Dataload

1. 使用以下 YAML 文件样例创建一个名为 dataload.yaml 的文件。

apiVersion: data.fluid.io/v1alpha1
kind: DataLoad
metadata:
  name: cron-dataload
spec:
  dataset:
    name: demo
    namespace: default
  policy: Cron
  schedule: "*/2 * * * *" # Run every 2 min

步骤四：创建应用容器访问 OSS 中的数据

本文以创建一个应用容器访问上述文件以查看定时 Dataload 效果。

1. 使用以下 YAML 文件样例，创建名为 app.yaml 的文件。

apiVersion: v1
kind: Pod
metadata:
  name: nginx
spec:
  containers:
    - name: nginx
      image: nginx
      volumeMounts:
        - mountPath: /data
          name: demo-vol
  volumes:
    - name: demo-vol
      persistentVolumeClaim:
        claimName: demo

2. 执行以下命令创建应用容器。

$ kubectl create -f app.yaml

3. 等待应用容器就绪，执行以下命令查看 OSS 中的数据：

$ kubectl exec -it nginx -- ls -lh /data

预期输出：

total 589K
-rwxrwxr-x 1 root root 589K Jul 31 04:20 RELEASENOTES.md

4. 为了验证 dataload 定时更新底层文件效果，我们在定时 dataload 触发前修改 RELEASENOTES.md 内容并重新上传。

$ echo "hello, crondataload." >> RELEASENOTES.md

重新上传该文件到 oss。

$ ossutil cp RELEASENOTES.md oss://<bucket-name>/<path>/RELEASENOTES.md

5. 等待 dataload 任务触发。Dataload 任务完成时，执行以下命令查看 Dataload 作业运行情况：

$ kubectl describe dataload cron-dataload

预期输出：

...
Status:
  Conditions:
    Last Probe Time:       2023-07-31T04:30:07Z
    Last Transition Time:  2023-07-31T04:30:07Z
    Status:                True
    Type:                  Complete
  Duration:                5m54s
  Last Schedule Time:      2023-07-31T04:30:00Z
  Last Successful Time:    2023-07-31T04:30:07Z
  Phase:                   Complete
...

其中，Status 中 Last Schedule Time 为上一次 dataload 作业的调度时间，Last Successful Time 为上一次 dataload 作业的完成时间。

此时，可以执行以下命令查看当前 Dataset 状态：

$ kubectl get dataset

预期输出：

NAME    UFS TOTAL SIZE   CACHED      CACHE CAPACITY   CACHED PERCENTAGE   PHASE   AGE
demo    588.90KiB        1.15MiB     10.00GiB         100.0%              Bound   10m

可以看出更新后的文件也已经加载到了缓存。

6. 执行以下命令在应用容器中查看更新后的文件：

$ kubectl exec -it nginx -- tail /data/RELEASENOTES.md

预期输出：

  \<name\>hbase.config.read.zookeeper.config\</name\>
  \<value\>true\</value\>
  \<description\>
        Set to true to allow HBaseConfiguration to read the
        zoo.cfg file for ZooKeeper properties. Switching this to true
        is not recommended, since the functionality of reading ZK
        properties from a zoo.cfg file has been deprecated.
  \</description\>
\</property\>
hello, crondataload.

从最后一行可以看出，应用容器已经可以访问更新后的文件。

环境清理

当您不再使用该数据加速功能时，需要清理环境。

执行以下命令，删除 JindoRuntime 和应用容器。

$ kubectl delete -f app.yaml  $ kubectl delete -f dataset.yaml

总结

关于基于 ACK Fluid 的混合云优化数据访问的讨论先到这里告一段落，阿里云容器服务团队会和用户在这个场景下持续的迭代和优化，随着实践不断深入，这个系列也会持续更新。

相关链接：

[1] 创建 ACK Pro 版集群

https://help.aliyun.com/document_detail/176833.html#task-skz-qwk-qfb

[2] 安装云原生 AI 套件

https://help.aliyun.com/zh/ack/cloud-native-ai-suite/user-guide/deploy-the-cloud-native-ai-suite#task-2038811

[3] 容器服务管理控制台

https://account.aliyun.com/login/login.htm?oauth_callback=https%3A%2F%2Fcs.console.aliyun.com%2F

[4] 通过 kubectl 工具连接集群

https://help.aliyun.com/zh/ack/ack-managed-and-ack-dedicated/user-guide/obtain-the-kubeconfig-file-of-a-cluster-and-use-kubectl-to-connect-to-the-cluster#task-ubf-lhg-vdb

[5] 安装 ossutil

https://help.aliyun.com/zh/oss/developer-reference/install-ossutil#concept-303829

作者：车漾

点击立即免费试用云产品开启云上实践之旅！

原文链接

本文为阿里云原创内容，未经允许不得转载。

微信关注我们

原文链接：https://my.oschina.net/yunqi/blog/10114126

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

JDK21新特性Record Patterns记录模式详解

1 摘要通过使用记录模式来增强Java编程语言，以解构记录值。记录模式和类型模式可嵌套使用，从而实现强大、声明式和可组合的数据导航和处理形式。 2 发展史由 JEP 405 提出的预览功能，并在JDK 19发布，然后由 JEP 432 再次预览，并在JDK 20发布。该功能与用于switch的模式匹配（JEP 441）共同演进，并且二者有相当大的交互作用。本JEP提议在持续的经验和反馈基础上对该功能完善。除了一些次要的编辑更改，自第二个预览版以来的主要变化是删除了对增强for语句头部出现记录模式的支持。这个功能可能会在未来的JEP中重提。 3 目标扩展模式匹配以解构记录类的实例，实现更复杂的数据查询添加嵌套模式，实现更可组合的数据查询 4 动机 Java 16中， JEP 394 扩展了instanceof运算符，使其可接受类型模式并执行模式匹配。这个简单的扩展使得熟悉的instanceof和强制转换惯用法变得更简洁、更不易出错： // ＜Java 16 if (obj instanceof String) { String s = (String)obj; ... 使用s ...

2023-09-25

374

大家好！datart 1.0.0-rc.3 版发布了，详细信息请见 release note 下载地址 Github：https://github.com/running-elephant/datart/releases/tag/1.0.0-rc.3 Gitee：https://gitee.com/running-elephant/datart/releases/1.0.0-rc.3 用户手册地址 Github：https://running-elephant.github.io/datart-docs/ Gitee：https://running-elephant.gitee.io/datart-docs/ demo地址：http://datart-demo.retech.cc/ 用户名：demo 密码：123456 「datart」更多信息参见 https://github.com/running-elephant/datart/blob/master/README.md 欢迎大家试用交流，有软件问题可以反馈（GitHub issue），感谢大家点赞（GitHub star）、收藏...

2023-09-25

407

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

参数	说明
mountPoint	oss://<oss_bucket>/<path>表示挂载UFS的路径，路径中不需要包含endpoint信息。
fs.oss.endpoint	OSS Bucket的endpoint信息，公网或私网地址皆可。
accessModes	表示Dataset的访问模式。
replicas	表示创建JindoFS集群的Worker数量。
mediumtype	表示缓存类型。定义创建JindoRuntime模板样例时，JindoFS暂时支持HDD/SSD/MEM中的其中一种缓存类型。
path	表示存储路径，暂时只支持单个路径。当选择MEM做缓存时，需指定一个本地路径来存储Log等文件。
quota	表示缓存最大容量，单位GB。缓存容量可以根据UFS数据大小自行配置。
high	表示存储容量上限大小。
low	表示存储容量下限大小。
fuse.args	表示可选的fuse客户端挂载参数。通常与Dataset的访问模式搭配使用。当Dataset访问模式为ReadOnlyMany时，我们开启kernel_cache以利用内核缓存优化读性能。此时我们可以设置attr_timeout（文件属性缓存保留时间）、entry_timeout（文件名读取缓存保留时间）超时时间、negative_timeout（文件名读取失败缓存保留时间），默认均为7200s。当Dataset访问模式为ReadWriteMany时，我们建议使用默认配置。此时参数如下：- -oauto_cache- -oattr_timeout=0- -oentry_timeout=0- -onegative_timeout=0使用auto_cache以确保如果文件大小或修改时间发生变化，缓存就会失效。同时将超时时间都设置为0。

参数	说明
dataset	表示执行dataload的数据集name和namespace。
policy	表示执行策略，目前支持Once和Cron。这里创建定时dataload任务。
shcedule	表示触发dataload的策略。

参数	说明
policy	表示dataload执行策略，包括[Once, Cron]。
schedule	表示cron使用的计划，只有policy为Cron时有效。
loadMetadata	表示在dataload前是否同步元数据。
target	表示dataload的目标，支持指定多个目标。
path	表示执行dataload的路径。
replicas	表示缓存的副本数。