根因分析思路方法总结|保障IT系统及其稳定性
云智慧 AIOps 社区是由云智慧发起,针对运维业务场景,提供算法、算力、数据集整体的服务体系及智能运维业务场景的解决方案交流社区。该社区致力于传播 AIOps 技术,旨在与各行业客户、用户、研究者和开发者们共同解决智能运维行业技术难题,推动 AIOps 技术在企业中落地,建设健康共赢的AIOps 开发者生态。 引言 近年来,随着IT系统监控能力的日益成熟,IT系统运行时问题的根因分析领域吸引了很多研究者的目光。本文通过调研大量运维领域根因分析的相关文献,并结合运维的实际需要,将根因分析问题进行了拆解,并对各子问题的解决方案进行了总结和分析。 一、IT系统及其稳定性的概念及抽象 IT系统,即IT基础设施。其定义千差万别,但一般认为是包括运营整个组织所必需的一系列物理设备和应用软件的集合,也包括由管理层预算所决定的组织范围内的人和技术能力的服务集合。业界经常提到的信息技术硬件、软件、服务方面的投资,其实就是IT基础设施。对于企业来说,这些设施能够为客户服务、与供应商建立联系和内部管理提供基础。IT基础设施的支出往往占到大型企业信息技术支出的25%-30%。IT系统运维的任务要尽可能保证服...
