SREWorks 数智服务尝鲜,你的数据准备好了吗?
什么是数智服务?
SREWorks 是一款基于“数据化、智能化”理念构筑的云原生运维平台:以“数智”思想为内核,围绕应用的交付、监测、管理、控制、运营、服务六部分,解决运维的“质量、成本、效率、安全”相关需求。
在 SREWorks 的开源社群以及各类咨询中,很多用户对其中的数智能力表现出浓厚的兴趣。但在目前的开源版本中,SREWorks 是围绕企业应用,提供端到端的完整数智能力,用户需要将业务应用迁入 SREWorks 云原生体系内,才能进一步体验数智化能力。
因此,为了能让用户快速体验 SREWorks 的数智能力,领略数智化运维的魅力,SREWorks 团队探索出了一个轻量化的数智服务方案,希望能为用户解决比如像热点机器等一些常见的运维痛点问题。
什么是热点机器
通常在一个集群中,小部分机器的 CPU 或者内存等指标过高,偏离了合理范围,表现为当前集群在资源层面出现机器负载不均的现象,我们可以认为集群中存在热点机器。在分布式系统里,尤其对于有状态的业务集群,热点机器的存在不仅会影响集群的稳定性,而且还会成为集群性能提升的瓶颈。也就是说,热点机器是集群稳定性和集群水位提升的短板。
以实时计算 Flink 集群的 CPU 资源来看,如下图所示。在集群调度层面所有机器的 CPU 资源分配水位是非常平均的,近乎持平。但在实际的运行过程中,由于调度层面不感知资源的物理使用,使得机器的 CPU 资源使用水位参差不齐,导致部分机器在某一维度的资源快速达到性能瓶颈,进而形成热点机器。
为了提高业务集群的稳定性,需要找到集群中的这些热点机器,进行热点分析并解决。但是,寻找热点机器也不仅仅依赖 CPU 指标这一项,内存、吞吐、磁盘等指标也都是判定标准,这么多指标让集群中的机器“横看成岭侧成峰,远近高低各不同”,使得热点机器的定位和分析也变的棘手。于是 SREWorks 数智服务来了,我们以阿里云日志服务(SLS)智能运维微应用的形式对外开放,这次首先推出的【机器画像】功能就是要帮助用户更好的解决热点机器的发现和分析问题。
目前 SREWorks 数智服务已完成阿里云核心大数据产品的指标数据接入,用户也可以创建自己的服务实例,按照应用的使用规范,接入指标数据。
机器画像
聚类分析是机器画像场景的核心功能,基于算法团队的支持,将 SREWorks 尚未开源的算法:多维度聚类,提前开放出来。同时根据指标数据进行算法的自适应优化,用户可以不需要感知复杂的算法参数,得到准确的聚类分析结果。聚类分析可以支持超大规模集群(万级别)的机器分析,主要包括单指标维度的机器热点分析和多指标维度的机器聚类分析。
单指标维度的机器热点分析,通过直方图的形式,可以帮助用户快速感知集群的机器分布概况,对集群的机器水位分布有一个整体认识。如下图左侧直方图所示,集群的用户 CPU 使用率整体维持在一个中低区间(<50%)水平,只有 1% 左右的机器 CPU 使用率超过 80%。
多指标维度的机器聚类分析,不仅内置了十多个典型的指标场景,用户可以快速进行对比分析;同时也支持自定义指标选择,用户可以按需选择合适的指标,进行聚类分析。
我们将多指标维度的聚类结果进行降维,把所有机器放到二维平面,即下图左侧的机器聚类分布散点图,通过该散点图,用户可以直观看到集群机器的聚类分组以及离群机器。
中间的雷达图则可以帮助用户进行各个分组(以及离群机器)之间的聚类指标值的对比,用户可以很容易看出各分组间不同指标的差异,从另一层面来讲,这也很好的解释了分组结果的依据。
离群机器指标统计表和聚类机器指标统计表则按照单机将具体的指标值进行汇总统计(包括像机器指标当前值、机器所属分组同类平均值、机器所属分组同类最大和最小值、机器所属分组同类中位值等),展示给用户,为用户进一步进行热点机器分析提供数据支持。
此外,机器画像场景还包含集群和单机维度的指标汇总和趋势看板,包括 CPU 核数、内存总量、存储总量、CPU 负载、存储使用率、内存使用率以及流量等。
数据接入
最后,我们来看下如何进行数智服务的数据接入以及如何基于数据规范进行数据存储。
用户需要拥有阿里云账号,并开通了日志服务(SLS) ,在日志应用模块的智能运维下找到 SREWorks 微应用,创建服务实例。
服务实例创建完成后,可以在实例的数据规范页查看数据规范定义。数据指标主要分成四大类:CPU、MEM、DISK 和 NET,每个分类都定义了一些常用指标,用户可以按需接入相对应的指标数据。有关具体的数据接入方案可以查阅 SLS 用户手册时序存储数据接入说明或者实时计算 Flink 作业开发(SLS 结果表)相关内容。
数智服务的后端存储依赖 SLS 的时序存储(Metricstore,兼容 Prometheus 数据),用户在创建数智服务实例后,系统会在关联的 SLS Project 项目下自动创建默认名称为 sw_node_metrics 时序库,后续的指标数据都需要同步到该时序库。
数据接入完成后,用户就可以借助机器画像场景的能力,进行机器的热点分析和聚类分析等。
指标格式示例:
__labels__:cluster#$#xyz|hostname#$#sreworks-host-a__time_nano__:1668646740000000__value__:96__name__:cpu_count
复制代码
数据链路示例:
总结
以上就是 SREWorks 数智服务的机器画像场景的主要功能,相较于 SREWorks 提供的端到端的数智能力解决方案,基于 SLS 的 SREWorks 数智服务微应用以一种轻量化、全托管的方式,将 SREWorks 的数智能力进行对外输出,为用户提供更低的接入使用门槛。当前仅开放机器画像场景,后续会提供更多的运维场景的数智分析能力,包括像根因分析、智能 QA 生成等场景。
SREWorks 开源地址:
https://github.com/alibaba/sreworks
SREWorks 数智服务(日志服务 SLS 微应用) 地址:

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
网迅加入 openKylin,助力开源生态创新发展!
近日,北京网迅科技有限公司(以下简称“网讯”)签署openKylin社区CLA(Contributor License Agreement 贡献者许可协议),正式加入openKylin开源社区。 网迅成立于2014年,是一家专注集成电路设计的高科技企业,多年来深耕于网络控制器芯片的自主研发,对保障通信网络基础平台建设及信息安全,具有重大战略意义和社会效益。网迅在板卡加速、加密应用、芯片验证等方面有深厚的技术积累。 此外,网迅发布了国内首款具有完全自主产权的万兆以太网络控制器芯片及千兆以太网络控制器芯片,并基于网络控制器芯片研制了自有网络适配器即网卡,兼容主流服务器、网安设备、嵌入式主板等硬件平台,目前已广泛应用于政务、能源、电力、轨交、电信等重要产业领域,在国产网络控制器芯片、国产网卡市场处于领先地位。 在加入openKylin开源社区后,网迅将秉承开放包容、协同创新、合作共赢的生态价值观,持续与社区进行版本适配和驱动合并,参与社区版本内测并反馈测试结果,通过技术交流、代码贡献等方式推动社区繁荣发展。 社区会员持续招募中 目前,openKylin社区会员招募正在火热进行中,欢迎更多企业...
- 下一篇
一文详解GaussDB(DWS) 的并发管控和内存管控
摘要:DWS的负载管理分为两层,第一层为cn的全局并发控制,第二层为资源池级别的并发控制。 本文分享自华为云社区《GaussDB(DWS) 并发管控&内存管控》,作者: fighttingman。 1背景 这里将并发管控和内存管控写在一起,是因为内存管控实际是通过限制语句的并发达到内存管控的目的的。内存管控是基于语句的估算内存的前提下进行管控的,通俗的说就是语句有个估算内存,当资源池的剩余内存小于语句的估算内存时,这个语句就会排队等待,等资源池内的语句执行完,资源池有足够的剩余内存的时候,才会让这个语句执行。所以内存管控的实际效果和语句的估算内存有很大关系,估算的大了就会造成大量语句排队,实际没有使用那么多内存,造成内存资源浪费,相反估算的小了,就会有很多语句下发,实际内存使用就会变多,就有语句报内存不足的错误风险。 数据库系统的并发控制,在整个系统中起着很重要的作用,比如很多用户的业务压力过大时,有时会导致连接数量被占满,有时会导致某种计算资源被占满,有时会导致存储空间被占满,这些情况都会导致整个集群进入异常甚至不可用的状态:正在执行的作业互相争抢CPU,会导致大家都不能好好...
相关文章
文章评论
共有0条评论来说两句吧...