首页 文章 精选 留言 我的
优秀的个人博客,低调大师

微信关注我们

原文链接:https://yq.aliyun.com/articles/606922

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

telegraf+influxdb+grafana开源监控架构

telegraf+influxdb+grafana开源监控架构: telegraf监控项很全,不需要额外安装插件,很强大 可以通过telegraf监控在grafana面板显示单台服务器的uptime、CPU cores、总Mem、总空间等值,用grafana的Singlestat项显示(这个是icinga2监控做不到的) 如果telegraf和influxdb之间涉及防火墙,需要开通TCP 80和8086端口 windows安装telegraf(只适用于windows 2008以上版本): wgethttps://dl.influxdata.com/telegraf/releases/telegraf-1.5.2_windows_amd64.zip 将telegraf-1.5.2_windows_amd64.zip放到C:\Program Files下 右击解压(解压到当前文件夹) telegraf-1.5.2_windows_amd64.zip 在C:\Program Files\telegraf下右击新建1个telegraf.log文件,编辑telegraf.conf修改influ...

线上服务故障处理原则

墨菲定律 任何事情都没有表面看起来那么简单 所有事情的发展都会比你预计的时间长 会出错的事情总会出错 如果担心某个事情发生,那么它更有可能发生 墨菲定律暗示我们,如果担心某种情况会发生,那么它更有可能发生,久而久之就一定会发生。这警示我们,在互联网公司,对生成环境发生的任何怪异现象和问题都不要轻视,对其背后的原因一定要调查清楚。同样,海恩法则也强调任何严重的事故背后都是很多次小问题的积累,当到一定量级后会导致质变,严重的问题就会浮出水面。 那么,我们需要对线上服务产生任何现象,哪怕是小问题,都要刨根问底,对任何现象都要遵循下面问题 为什么会发生 ? 发生了该怎么应对 ? 怎么恢复 ? 怎么避免 ? 应急目标 在生成环境发生故障时快速恢复服务,避免或减少故障带来的损失,避免或减少故障对客户的影响 应急原则 应第一时间恢复系统,而不是彻底解决呢问题,快速止损 明显资金损失时,要第时间升级,快速止损 指标要围绕目标,快速启动应急过程与止损方案 当前负责人不能短时间内解决问题,则必须进行升级处理 处理过程在不影响用户体验的前提下,保留现场 应急方法与流程 线上应急一般分为 6 个阶段 发现问题...

相关文章

发表评论

资源下载

更多资源
优质分享App

优质分享App

近一个月的开发和优化,本站点的第一个app全新上线。该app采用极致压缩,本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

腾讯云软件源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题,腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构,目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux

Rocky Linux(中文名:洛基)是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版,作为CentOS稳定版停止维护后与RHEL(Red Hat Enterprise Linux)完全兼容的开源替代方案,由社区拥有并管理,支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性,采用模块化包装和SELinux安全架构,默认包含GNOME桌面环境及XFS文件系统,支持十年生命周期更新。