基于XXL-JOB和钉钉机器人构建系统监控

2019-08-31 1096

概述

线上系统挂了，服务异常了，响应超时了；系统运行结果不符合预期。。。
用户被影响，甲方爸爸不开心，后果很严重。<br> 从某种意义上讲，“在用户遇到问题之前把问题解决，问题也就不算问题了”。

文章概要：线上环境痛点》解决方案》想象空间。

1、痛点

以下痛点是本公司实践中遇到的痛点，痛点或许不具备通用性，但思路却可以借鉴。

1.1、在服务发布时，我们经常会遇到如下的问题

服务刚发布，是否部署成功；
服务刚发布，版本是否正确（实例运行版本是否是我想要部署的版本）；
服务刚发布，文件是否缺失；

如果服务实例较少，挨个上服务器检测，也是可行的，但目前稍微有点用户的系统，都是多实例部署，一个机房动辄几十上百个实例，挨个上服务器费时费力。

事实上，如果CI & CD 给力，以上问题都将不再是问题。

1.2、在服务发布后，也会有如下问题

服务是否可用；
单个服务可用，但系统链路是否畅通呢；
同一个机房不同实例代码是否一致（人工疏忽、运维系统等问题导致不一致）；

此外，我们公司还涉及本地化部署（将公司系统打包部署到其他公司），本地化部署一段时间需要部署新版本，但我们却不知道上次部署的系统是什么时候的版本。直接部署最新版本？系统太大，关联系统太多，所有系统部署最新版本，部署及验证耗时费力，成本太高，肯定不行。

1.3、管理诉求

发布故障：在发布完成后有故障则立即告警；
系统运行故障：运行有故障则立即告警，力争比用户早发现异常；
监控自动化：总不能挨个实例看控制台吧；
接收告警方便高效：相关责任方能方便接收到消息（不考虑邮件）；
监控系统本身稳定：没有收到告警就一定是没有故障吗，是否是监控系统本身故障了呢；

2、解决方案

目前市面上有很多的监控系统，稳定高效、历经众多大厂生产系统检验，如Zabbix、Prometheus(普罗米修斯)等。
但最终我并没有选择这些监控系统，而是自己搭建一套。为什么自己构建，自己搭建的比他们更优秀吗，当然不是。
更优秀的不一定是最好的，更合适的才是最好的。
自行搭建监控系统原因如下：①这些系统太重，而我仅仅是监控一个业务模块的几个服务而已；②这些系统属于公司级别的监控，需要公司级别去推行，而我需要的是几天就能上线监控系统；③这些系统面向大众，监控方案也是通用的，而我需要自己定制化一些监控指标。
通用的东西不易做精细，越定制化，做好的概率越大。

2.1、监控如何做

2.1.1、服务正常运行监控

监控端口是否可行呢？肯定不可行，端口通信正常，并不代表服务正常，所以最终选择在服务里新增专用的监控接口；

2.1.2、监控告警通知

邮件？直接pass，谁会整天看邮件呢，公司用钉钉，所以最终选择了钉钉群机器人；

2.1.3、告警内容

越少越好，只告警真正核心的内容，否则通知泛滥，反而没人关注了，公司那么多系统监控的邮件你看了多少呢？如果确实有大量内容需要通知（不是告警），请使用单独的群通知。

2.2、监控实现-代码改造

不推荐使用业务接口用于监控，监控接口应该支持快速响应且资源消耗极低。
当然，做业务级别的监控除外，业务级别监控应合理评估资源消耗，不能影响正常业务。

2.2.1、服务运行监控接口

代码中新增独立的监控接口，请求接口返回数据则表示服务正常；

@ApiOperation(value = "测试接口")
@RequestMapping(value = "/test", method = RequestMethod.GET)
public int test() {
    return 1;
}

以上接口简单粗暴，返回1则表示正常，这也是第一个版本的监控实现。
最新版本的监控接口如下，原因见【相同机房不同实例版本一致监控】。

@ApiOperation(value = "查询当前服务版本号，开发版本号_修改版本号")
@RequestMapping(value = "/getVersion", method = RequestMethod.GET)
@ResponseBody
public String getVersion() {
    String version = new StringBuilder().append(Version.developVersion).append("_").append(Version.modifyVersion).toString();
    return version;
}

2.2.2、系统链路监控

对于固定业务而言，整体的系统链路是固定的，系统A调用系统B，系统B调用系统C。所以直接在A、B 、C系统中新增调用链接口，监控时仅需监控最上层服务A，如果调用链路有异常，则告警。

@ApiOperation(value = "测试服务调用链，返回调用链上的 log.AppName，服务IP，当前时间戳")
@RequestMapping(value = "/testCallChain", method = RequestMethod.POST)
@ResponseBody
public String testCallChain(@RequestBody CloudRequestVo<String> cloudRequestVo) throws Exception {
    String localVersion = new StringBuilder().append(cloudRequestVo.getCloudTraceID()).append(" ==> ").append(LogUtil.getCloudTraceID()).toString();
    String nextService = bServiceFeignClient.testCallChain(cloudRequestVo);
    return new StringBuilder(nextService).append(" <== [").append(LogUtil.getCloudTraceID()).append("]").append("[ServiceStartTime]").append(serviceStartTime).append("[Version]").append(getVersion()).toString();
}

仔细看代码，会发现服务响应内容中包含了调用链上每个服务的响应信息，这些信息里包含了CloudTraceID（含有当前实例IP、当前实例名字、当前请求时间）、ServiceStartTime（系统启动时间）、Version（系统版本信息）；

2.2.3、相同机房不同实例版本一致性监控

细心的同学可能会发现，在【系统链路监控】中服务的响应数据包含了系统版本信息（Version），这个便是用于监控相同机房不同实例版本是否一致。
监控原理：

①开发人员完成开发后，只要需要发布生产就必须修改代码中的版本信息，版本号加1；
②监控脚本请求同一个机房相同服务后，若发现返回的版本信息不一致，则告警；

或许有同学会说，这种手段需要人为修改代码，忘记修改怎么办？
我们公司用的是Jenkins编译，所以我修改了相关代码，Jenkins编译时会校验版本号是否递增，如果未递增，则直接不允许编译。

/**
 * Desc: 版本信息.
 * developVersion：开发版本号，必须与SVN地址上的版本号一致（格式请勿改变，只能修改数字，否则Jenkins可能不允许编译）。
 * modifyVersion：修改版本号，每次修改代码只要需要编译发布就必须递增该版本号，加1即可（格式请勿改变，只能修改数字，否则Jenkins可能不允许编译）。
 */
public class Version {
    // start
    public static int developVersion = 8102;
    public static int modifyVersion = 9;
    // end
    // 注意：start、end中间不能加任何东西，只允许修改版本号。

}

Note：

为避免监控接口地址和业务接口地址冲突，建议所有监控地址统一前缀，如：
服务运行监控接口地址：IP:PORT/test/getVersion ；
系统链路监控地址：IP:PORT/test/testCallChain；
相同机房不同实例版本一致性监控接口地址：直接使用getVersion接口返回数据，不单独开接口；

PS：版本一致性监控，最初考虑使用命令SSH连接远程服务器执行shell脚本做校验，此方案太繁琐被pass了。

2.3、监控实现-监控及告警

2.3.1、开启钉钉群机器人

钉钉群机器人用于接收告警信息。如何开启钉钉群机器人，此处不赘述了。开启机器人后，拿到webhook地址，则可以使用http请求向钉钉群发消息了。
详细说明参考钉钉开放平台文档：https://ding-doc.dingtalk.com/doc#/serverapi2/qf2nxq 。

2.3.2、监控实现

准备工作：
待监控实例的IP、端口，并按实例及机房分组；
待监控业务的顶层实例IP、端口；
监控逻辑：
定时请求监控接口，如果有异常，则调用钉钉机器人接口告警。
监控频率：
频率不宜过高，影响业务就不好了。（PS监控接口都是相当轻量的接口）
调用链监控频率建议设置长一些，毕竟服务连通性正常，调用链异常可能性较少。
监控正常通知：
没有收到告警就一定是没有故障吗，是否是监控系统本身故障了呢。
所以还需要每天定时向监控群发个通知“XXX监控运行正常”。

2.3.3、监控平台

只要能访问生产服务，且能发起Http请求就可以。
我使用的是 XXL-JOB作为监控平台，直接使用GLUE模式，可以随时完善监控代码，并查看监控系统运行日志。使用教程可以查看XXL-JOB官方教程http://www.xuxueli.com/xxl-job/#/。

公司同事可直接联系我获取监控脚本，替换待监控实例的IP端口即可使用（在新增专用测试接口前可临时使用已有接口）。

3、想象空间

3.1、告警渠道多元化

钉钉、微信、电话、企业内部通讯工具，只要渠道支持http请求就行。

3.2、业务监控

①业务级别监控、实例内部定制数据监控；
②集成已有监控系统，很多企业使用ELK作为日志系统，并有很多监控面板，完全可以采集监控面板的数据做通知告警。

3.3、自动化测试

当业务稳定后，完全可以实现自动化测试。代码一发，自动化测试一跑，发现并解决基础异常后，QA才介入进行复杂场景的测试，甚至当复杂业务场景的数据接收及响应数据的结构稳定清晰后，复杂场景也可以自动化测试。

3.4、其他通知场景

非得是系统监控告警吗？有了钉钉群机器人，任何提醒都可以做，比如重要的线上业务的阶段性通知，甚至是一些定时提醒。

4、后记

此监控系统从1月份上线，已经迭代优化运行半年多了。现在每天最开心的事情就是早晚收到监控系统正常运行的通知，而其他时间都不收到异常通知。此监控系统也确实在服务部署及线上运营过程中为我们提前发现了很多问题。
监控做了，系统就无忧了？告警了但没人从根本上解决问题，也并没什么卵用；兄弟业务团队的系统异常也可能互相影响。真正的系统高可用，得公司发力，从系统架构、业务、管理等方面综合下手，就不BB了。 当然自己的业务模块自己必须负责。
如果是一个业务模块，这套监控系统的思路或许很适合，如果是大规模微服务做统一监控，建议还是使用市面上成熟的监控系统。

思路比工具更重要，想象空间留给大家。
最后上张监控告警图片吧：

祝君好运！
Life is all about choices！
将来的你一定会感激现在拼命的自己！
【CSDN】【GitHub】【OSCHINA】【微信公众号】

微信关注我们

原文链接：https://my.oschina.net/zxiaofan/blog/3100312

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Node.js 使用 MongoDB 的 ObjectId 作为查询条件

当往MongoDB中插入一条数据时，会自动生成ObjectId作为数据的主键。那么如何通过ObjectId来做数据的唯一查询呢？在MongoDB中插入一条数据在MongoDB中插入一条如下结构的数据： { _id: 5d6a32389c825e24106624e4, title: 'GitHub 上有什么好玩的项目', content: '上个月有水友私信问我，GitHub 上有没有比较好玩的项目可以推荐？我跟他说："有，过两天我整理一下"。\n' + '\n' + '然而，一个月过去了，我把这件事情忘了精光，直至他昨天提醒我才记起2_05.png。\n', creation: 2019-08-31T08:39:20.384Z } 其中，上述_id的值“5d6a32389c825e24106624e4”，是MongoDB自动分配的。使用 MongoDB 的 ObjectId 作为查询条件须知，_id的值“5d6a32389c825e24106624e4”并非是字符串，而是ObjectId对象类型。因此，如下查询是行不通的： // 查询指定文档 const findNews =...

2019-08-31

691

Docker有成千上百万的命令行。因此Docker文档内容十分丰富，同时又让刚入门的新手感到不知所措。在本文中，我将重点介绍运行Docker的关键命令。前言 Docker镜像是由Dockerfile和一些必要的依赖项组成的，Docker容器是动态的Docker镜像。要使用Docker命令，首先需要知道您是在处理镜像还是容器。一旦你知道你所处理的是镜像还是容器之后，你才可以找到正确的命令。命令的共性你需要知道一些关于Docker命令的规律： Docker CLI管理命令以docker开头，然后是空格，接着是管理类别，然后是空格最后是命令。例如，docker container stop这一命令可以停止容器。引用特定容器或镜像的命令需要该容器或镜像的名称或ID。举个例子，docker container run my_app 是用于构建和运行名为my_app的容器的命令。在本文示例中，我将使用名称my_container来引用通用容器。同理，my_image、my_tag也是如此。我将单独提供命令和通用标志。前面有两个破折号的标志是标志的全名。带有一个破折号的标志是完整标志名...

2019-09-02

880

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。