解决方案|电力行业应如何应对数字化转型危机
背景与挑战
随着电网公司数字化转型工作的推进和云平台、大数据、物联网、移动化、智能化等新技术的应用,推进高效一体化网络排障定位与深入推进人工智能及大数据技术等在电网信息系统运维中的应用,以及运用前沿科技技术,提高生产管理效益,提升数字电网建设过程中数据的价值已成为电网公司数字化转型工作的必然要求。
与此同时,伴随着电力行业数字化转型的不断发展,相关企业业务系统的不断更新与设备数量的大幅增加,由此引发了电力行业以下痛点:
监控层面:缺乏非侵入式的业务数据监控手段;
工作流程层面:缺乏统一的IT服务入口和服务管理流程;
人员层面:业务体系复杂,不同业务部门各自为政;
故障处理层面:问题发生后被动处理,且故障分析定位困难。
基于以上背景及痛点,如何在不植入探针或 Agent 的情况下监控业务链路运行情况,业务管理人员如何统计分析关键业务指标数据,运维人员如何准确定位故障、排查故障对电力行业相关企业来说均是极大的挑战。
场景需求分析
基于上述背景及挑战分析,电力行业具体包含以下运维场景需求:
非侵入式监控:通过非侵入式手段或工具实现对业务拓扑和业务指标数据的监控;
运维数据分析:统一收集、处理、分析业务系统运维数据、日志数据和关键指标数据;
统一处理展示:对业务系统的物理链路、逻辑拓扑以及指标数据进行集中监控展示;
故障定位分析:统一告警信息收集、对故障进行关联分析,准确定位故障问题和根因,提升故障处理效率。
解决方案
整体产品技术架构
下图为整体产品技术架构,包含底层立体化监控与管理工具集、中层数字化运维数据中台、顶层数据价值与管理产品集。底层立体化监控与管理工具集包含基础设施监控(DOIM)、业务性能监控(DBPC)以及其他开源及非开源监控工具与日志分析(DOLA);中层数字化运维数据中台包含数字化运维指标管理体系(DOMM)、面向服务的配置管理(CMDB)、智能分析(DOIA)、数字化运维数据库 (DODB )以及采控平台(DOCC);顶层数据价值与管理产品集包含数字化运维监控中心(DOMC)、数字化运维事件管理(DOEM)数字化运维工作台、报告报表以及数字化运营服务管理。
产品列表及功能
业务性能监控工具
下图为业务性能监控工具监控网络流量镜像的具体流程。通过抓取网络镜像流量的方式对业务数据进行分析。业务发起后,业务流量经过多层链路一体化展示,直观明了地展示业务在哪个层级消耗的时间情况。
数字化运维数据库
数字化运维数据库能够实时高效的接入用户环境的多种数据源,收集用户环境中的IT和业务数据,进行统一的管理和存储,通过便捷和强大的建模分析工具,将数据进行关联分析、业务建模,结果实时输出给可视化以及其他应用。
数据处理:通过数据处理pipeline对流式数据进行实时处理,内置多种数据处理组件以及数据处理模版,开箱即用,全方面满足数据预处理的要求。
数据存储:高性能的分布式列式存储数据库,大大减少数据对磁盘空间的占用,在相同容量下,能够对更大范围的数据进行实时查询。
数据计算:丰富的聚合计算函数和强大的计算能力,充分利于 CPU 资源面。聚合查询的平均响应时间可在3秒以内,一些简单查询可以在毫秒级。
数字化运维算法平台
数字化运维算法平台包含指标异常检测、指标预测、日志模式识别、根因分析与推荐、多指标分析、告警降噪等6大 AIOps 场景的20余个智能算法。提供了丰富的算法库,开箱即用,能够支撑丰富的运维场景。
单指标异常检测:动态基线算法、自动阈值算法、分段阈值算法、频域分析算法、自动选择算法
多指标异常检测:多指标异常检测算法
日志解析:CWdrain算法、CWspell算法
指标预测:CWprophet算法、CWrnn算法
根因分析:基于调用链的RCA算法
智能告警降噪:日志统计异常检测算法
数字化运营指标体系管理平台
数字化运营指标体系管理平台作为上层应用侧产品监控中心重要的数据来源之一,帮助其通过整合业务与IT资源、指标、健康度、告警事件,围绕业务价值构建多维度的运维监控体系,以实现能够快速发现、分析并定位故障,达到全方位、立体化监控的能力。
静态阈值
手动设定数据区间梯度
根据数值坐落区间获取指标健康度
动态阈值
选定算法进行指标异常检测
历史数据训练获得算法模型
算法结果判定指标健康度
健康度设置
生死线指标严重异常时,可一票决定健康度。健康度得分是表征对象健康状态的绝佳指示器。
选择参与计算的指标元素
根据业务情况分配元素的权重
生成健康素计算公式
数字化运维监控中心
数字化运维监控中心是一款全方位、立体化的实时监控产品,面向企业业务价值与 IT 运维的顶层规划,对业务数据以及基础设施、中间件、服务、应用、调用链等 IT 资源进行统一监控,并通过构建业务关联关系,结合指标、日志、告警等,帮助快速发现、分析并定位故障。
数字化运维事件管理
数字化运维事件管理基于大数据技术和机器学习算法,统一接入与处理来自于各种监控系统的告警消息与数据指标,支持告警事件的过滤、通知、响应、处置、定级、跟踪以及多维分析,最终实现面向告警事件全生命周期的闭环管控。
整体方案流程
在数据采集侧,通过业务性能监控工具抓取旁路流量,获取业务系统监控数据,同时通过业务流程梳理,建立业务链路拓扑,实现基于业务实际链路的监控分析,监控数据通过kafka传递至运维数据库。
运维数据库接收到数据后,对数据进行处理(包括字段提取、拆分、合并、格式转换等)并基于场景需求将不同数据存储到不同的数据库,同时通过查询引擎为应用场景提供数据支撑。
最后,在监控中心对业务系统拓扑和数据指标进行统一展示,基于规则进行健康度分析和事件告警,通过智能运维算法和大数据分析,实现指标数据的趋势预测和对事件告警的根因分析。
某电网企业案例分享
需求分析
希望通过不植入代码的方式来监控业务层的指标数据,形成业务链路拓扑图,跟踪业务数据流向,并实时展示关键数据;
通过指标历史数据,动态提供指标预测基线、预测数值范围;
针对问题,能够进行根因分析,快速进行问题定位;
对接当前使用的告警系统,分析出数据结果后,通过当前正在使用的的告警系统去触发事件。
云智慧解决方案
通过DBPC工具通过旁路镜像流量的方式获取实时业务数据,以非侵入的方式实现了对业务的监控;
建立运维大数据平台,实现对接收的数据进行统一存储和处理,并提取关键指标数据;
利用智能算法,对历史数据进行学习,实现了对未来一段时间内的数据趋势预测;
通过告警事件管理,对接客户现有告警系统,实现了告警信息的压缩、清洗,并且与现有的工单系统实现关联。
FlyFish开源福利
云智慧已开源数据可视化编排平台 FlyFish 。通过配置数据模型为用户提供上百种可视化图形组件,零编码即可实现符合自己业务需求的炫酷可视化大屏。 同时,飞鱼也提供了灵活的拓展能力,支持组件开发、自定义函数与全局事件等配置, 面向复杂需求场景能够保证高效开发与交付。
点击下方地址链接,欢迎大家给 FlyFish 点赞送 Star。参与组件开发,更有万元现金等你来拿。
GitHub 地址: https://github.com/CloudWise-OpenSource/FlyFish
Gitee 地址:https://gitee.com/CloudWise/fly-fish
微信扫描识别下方二维码,备注【飞鱼】加入AIOps社区飞鱼开发者交流群,与 FlyFish 项目 PMC 面对面交流~

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
湖仓一体雷声大雨点小?这三点需要关注
本期单口开源我们请到马进来和大家聊一聊 “湖仓一体”。 马进:网易数帆大数据实时计算技术专家湖一体项目负责人 大家好,我是来自网易数帆的马进,今天跟大家聊聊湖仓一体。 湖仓一体是个舶来词,英文名称叫 Lakehouse,最早由 Databricks 公司在 2020 年提出。在 Databricks 的理念中,传统数据湖在批计算、AI、机器学习等领域有丰富的资源和实践,但是在流计算、数据质量和数据治理方面相较于传统数仓有较大不足。 为此,Databricks 提供了 Lakehouse 平台,基于数据湖之上,可以提供不弱于传统数仓的能力,也能享受数据湖在 AI、机器学习、批计算上的积累。 Databricks 作为一家商业化公司,讲述的 Lakehouse 的故事必然有营销的成分在,但必须承认的是,Lakehouse 这个概念已经深入人心。包括 Databricks 的老对手 Snowflake 也将自己标榜为 Lakehouse。在 Databricks 的故事里,Delta 是 Lakehouse 的存储底座,目前开源社区中,Iceberg 和 Hudi 也是和 Delta 对标的...
- 下一篇
深度干货!一篇 Paper 带您读懂 HTAP | StoneDB 学术分享会第①期
在最新一届国际数据库顶级会议 ACM SIGMOD 2022 上,来自清华大学的李国良和张超两位老师发表了一篇论文:《HTAP Database: What is New and What is Next》,并做了 《HTAP Database:A Tutorial》 的专项报告。 本篇文章,我们将系统地梳理一下两位老师的报告,带读者了解 HTAP 的发展现状和未来趋势。 这个报告主体上分为5个章节,分别是: 背景介绍 。 HTAP Databases :分享最新的 HTAP 数据库技术,总结它们主要的应用场景与优缺点,并根据存储架构对它们进行分类。 HTAP Tecniques :介绍主流的 HTAP 数据库关键技术,包括事务处理技术、查询分析技术、数据组织技术、数据同步技术、查询优化技术以及资源调度技术等。 HTAP Benchmarks :介绍目前现有的主流 HTAP 基准测试。 Challenges and Open Problems :讨论 HTAP 技术未来的研究方向与挑战。 本文仅作精选分享,会省略一些非必要内容,如想了解更多,请阅读原报告。 Part1 背景介绍 1....
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS关闭SELinux安全模块
- CentOS8编译安装MySQL8.0.19
- CentOS8安装Docker,最新的服务器搭配容器使用
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- Docker安装Oracle12C,快速搭建Oracle学习环境
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- Red5直播服务器,属于Java语言的直播服务器
- Windows10,CentOS7,CentOS8安装Nodejs环境