TAC报警中心: 专有云告警生命周期一站式管理运维平台
TAC报警中心是阿里云SRE团队为专有云精心打造的一站式告警运维平台,覆盖专有云所涉及的云产品、大数据、云实例以及用户所涉及的站点应用等告警,提供告警生命周期管理以及报警外发等解决方案。帮助专有云快速发现、定位异常问题,协助产品团队进行产品优化。
1 功能特点
1.1 告警汇聚
- 默认集成:云平台、大数据、云实例、站点应用
- 支持扩展:自定义监控
1.2 报警通道
- 钉钉、本地化钉钉
- 短信设备、公共云短信服务
- 企业邮箱
2 平台体系
图1:TAC平台体系
3 架构设计
图2:TAC架构设计
4 界面展示
图3:TAC界面展示
5 主要功能
5.1 告警中心
- 展示TAC平台当前所有的告警数据,并显示近7天的产品告警TOP排行
5.2 告警工作台
- 用户可以在平台告警页面上认领新增的待处理告警,线下处理完成后可以在我的告警页面上关闭该告警
- 当认领了自己不擅长处理的产品告警,可以通过线上转发的方式移交给擅长处理的同学
- 若出现长期无法处理的告警,在确认无影响的情况下可以选择忽略该告警,避免一直外发造成消息轰炸
- 展示当前告警总数、待处理告警数、已关闭的告警数以及近7天的MTTR和平均MTTR
5.3 策略中心
- 可以通过设置自动分派策略,当指定的产品出现告警后会自动为该用户认领告警
- 当天首次出现的告警会立即通知,非首次出现的告警需要遵循1440分钟的静默期后通知
- 可以控制告警发送时的状态,发生时、认领时、关闭时
- 可以预约在指定的时间范围内使某一类型的告警进入静默期,告警外发暂时失效
5.4 推送配置
- 提供用户体系,系统会识别用户的手机号码以及邮箱地址来发送告警
- 提供钉钉、短信、邮件的外发配置页面
5.5 系统配置
- 可以在实例管理页面手动创建或导入需要监控的实例列表
- 例如项目未部署大数据产品可以在菜单管理页面通过禁用的方式控制首页的告警展示
- 当想同时管理多朵云时,可以在配置管理页面创建多个节点,配置多个节点的告警数据接口
- 当数据源有监控能力增加时,TAC无需升级,只需在监控管理页面增加监控项名称即可具备监控能力
5.6 站点监控配置
- 在监控任务页面可以配置用户关心的网站、机器或某个接口,TAC会根据规则进行监控
- 若现场以前有提供过黑屏化的监控工具,用户可以在注册API页面注册一个APP,根据接口调用规范将监控结果上报至TAC来展示和外发
目前,中国区100+项目已部署TAC,其中有40%+的项目可以通过钉钉、短信或邮件的方式实现告警外发。有效提高告警处理效率,减少因告警未及时处理导致故障的情况,大幅提高项目运维质量,减少项目人力投入成本。
作者:黄家亮
阿里云智能GTS-SRE团队资深技术支持工程师
7年IT从业经验,超3年阿里专有云运维管理经验,现就职于阿里云智能GTS-SRE团队,负责运维开发工作,期间深度参与并负责铜雀、TAM企业服务运营管理平台以及TAC报警中心三个系统从0到1的建设工作,有效提高专有云运维能力和效率。
我们是阿里云智能全球技术服务-SRE团队,我们致力成为一个以技术为基础、面向服务、保障业务系统高可用的工程师团队;提供专业、体系化的SRE服务,帮助广大客户更好地使用云、基于云构建更加稳定可靠的业务系统,提升业务稳定性。我们期望能够分享更多帮助企业客户上云、用好云,让客户云上业务运行更加稳定可靠的技术,您可用钉钉扫描下方二维码,加入阿里云SRE技术学院钉钉圈子,和更多云上人交流关于云平台的那些事。
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
RPA+AI这个278亿市场规模的赛道,IDC的这份报告讲清楚了
云栖号资讯:【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! RPA+AI,正在成为AI领域看得见的一股潮流,各类厂商都不约而同的朝着这个方向前进。 它的另一个名字叫做IPA,Intelligent Process Automation,智能流程自动化。 在过去一年多的时间里,这个领域被密集的提到、被密切的关注,甚至不同阶段的大中小公司一齐入局,其中也不乏有自然语言处理背景的厂商和有一定经验的AI创业公司。 RPA+AI的确很大程度基于自然语言处理能力。当然,计算机视觉等其他方面的AI模型对它一样重要。相对成熟的技术和广阔的应用空间,让RPA成为人工智能商业化进程中触手可得的果实。 或许,早期阶段的RPA之于自然语言处理,正如安防刷脸之于计算机视觉一样,是这个领域最早的爆发机会之一。 RPA+AI,如何解放生产力 在RPA(Robotic process automation,机器人流程自动化)的基础之上,接入OCR、图片识别、自然语言理解等AI能力,自动化的机器人系统操作,就可以变得更聪明,能完成更多任务。 举个例子,如果你需要把一些纸质信息数据...
- 下一篇
【云栖号直播】阿里云618大促必看:弹性计算产品专家带你又快又稳,0成本搞定迁云!
云栖号在线课堂,及时了解行业动态!阿里云推出疫情专题方案,为企业业务护航,让你足不出户了解行业动态。 在这里可以走近阿里云基础产品,了解更多应用方案,还能遇见大咖分享洞见及故事!也可以通过视频的形式让你高效、生动的了解场景化的上云最佳实践。 本周重磅推荐 标题:云原生之数据库培训:从传统数据库到云数据库演进 简介:本次的新冠疫情,让全社会感受到在线化的优势以及数字经济的强大威力,企业的数字化转型不再是一种趋势,而是迫在眉睫,生死攸关的问题。 数据作为关键的生产要素,也将是数字经济的基础设施。在数字化转型过程中,传统线下数据库厂商垄断的市场将一去不返,取而代之的是云数据库的蓬勃发展。让开发者感受到传统数据库往云数据库演进的必然性,云原生数据库具备的优势,以及开发者在以云原生数据库为导向的新时代该如何做好准备。 观看直播 标题:Spring Cloud Alibaba - 重新定义 Java Cloud-Native 简介:在过去的十年中,互联网在中国得到了快速发展,越来越多的人在日常生活中偏爱在线购物和社交媒体。作为分布式应用程序开发的一站式解决方案,Spring Cloud Aliba...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS8编译安装MySQL8.0.19
- MySQL8.0.19开启GTID主从同步CentOS8
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS7,CentOS8安装Elasticsearch6.8.6
- Red5直播服务器,属于Java语言的直播服务器
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- CentOS6,CentOS7官方镜像安装Oracle11G