分享Docker监控体系（Kubernetes Mesos监控）-低调大师

分享Docker监控体系（Kubernetes Mesos监控）

2018-12-17 720

常不释放资源，造成高CPU占用；比如进程结束异常，不停的重启相同的进程；比如日志级别设置过低，大量日志输出，影响进程性能和占用大量磁盘空间。所以做监控时一定要遵循有自我安全控制的能力。监控工具在拿到生产环境中运行前，一定要先在测试环境中进行一段时间的试运行。

3、触发式的数据采集

需要关注异常点的现场数据采集，比如threaddump，heapdump，主机的性能数据等。这些故障点的数据重启后就会失去，有些故障不能重现时，相关的分析数据就很重要了，所以对于这些数据，需要进行触发式的数据采集。当满足某些条件时触发采集，而在平常不运行。

容器的监控方案

传统的监控系统大多是针对物理机或虚拟机设计的，物理机和虚拟机的特点是静态的，生命周期长，一个环境安装配置好后可能几年都不会去变动，那么对监控系统来说，监控对像是静态的，对监控对象做的监控配置也是静态的，系统上线部署好监控后基本就不再需要管理。

虽然物理机，虚拟机，容器对于应用进程来说都是host环境，容器也是一个轻量级的虚拟机，但容器是动态的，生命周期短，特别是在微服务的分布式架构下，容器的个数，IP地址随时可能变化。如果还采用原来传统监控的方案，则会增加监控的复杂度。比如对于一个物理机或虚拟机，我们只要安装一个监控工具的agent就可以了，但如果在一个物理机上运行了无数个容器，也采用安装agent的方式，就会增加agent对资源的占用，但因为容器是与宿主机是共享资源，所以在容器内采集的性能数据会是宿主机的数据，那就失去在容器内采集数据的意义了。

而且往往容器的数量比较多，那么采集到的数量也会非常多，容器可能启动几分钟就停止了，那么原来采集的数据就没有价值了，则会产生大量这样没有价值的监控数据，维护起来也会非常的复杂。那么应该如何对容器进行监控呢？答案是在容器外，宿主机上进行监控。这样不仅可以监控到每个容器的资源使用情况，还可以监控到容器的状态，数量等数据。

单台主机上容器的监控

单台主机上容器的监控实现最简单的方法就是使用命令Docker stats，就可以显示所有容器的资源使用情况，如下输出：

虽然可以很直观地看到每个容器的资源使用情况，但是显示的只是一个当前值，并不能看到变化趋势。而谷歌提供的图形化工具不仅可以看到每个容器的资源使用情况，还可以看到主机的资源使用情况，并且可以设置显示一段时间内的越势。以下是cAdvisor的面板：

而且cAdivsor的安装非常简单，下载一个cAdvisor的容器启动后，就可以使用主机IP加默认端口8080进行访问了。

跨多台主机上容器的监控

cAdivsor虽然能采集到监控数据，也有很好的界面展示，但是并不能显示跨主机的监控数据，当主机多的情况，需要有一种集中式的管理方法将数据进行汇总展示，最经典的方案就是 cAdvisor+ Influxdb+grafana，可以在每台主机上运行一个cAdvisor容器负责数据采集，再将采集后的数据都存到时序型数据库influxdb中，再通过图形展示工具grafana定制展示面板。结构如下：

这三个工具的安装也非常简单，可以直接启动三个容器快速安装。如下所示：

在上面的安装步骤中，先是启动influxdb容器，然后进行到容器内部配置一个数据库给cadvisor专用，然后再启动cadvisor容器，容器启动的时候指定把数据存储到influxdb中，最后启动grafana容器，在展示页面里配置grafana的数据源为influxdb，再定制要展示的数据，一个简单的跨多主机的监控系统就构建成功了。下图为Grafana的界面：

Kubernetes上容器的监控

在Kubernetes的新版本中已经集成了cAdvisor，所以在Kubernetes架构下，不需要单独再去安装cAdvisor，可以直接使用节点的IP加默认端口4194就可以直接访问cAdvisor的监控面板。而Kubernetes还提供一个叫heapster的组件用于聚合每个node上cAdvisor采集的数据，再通过Kubedash进行展示，结构如下：

在Kubernetes的框架里，master复杂调度后有的node，所以在heapster启动时，当heapster配合k8s运行时，需要指定kubernetes_master的地址，heapster通过k8s得到所有node节点地址，然后通过访问对应的node ip和端口号(10250)来调用目标节点Kubelet的HTTP接口，再由Kubelet调用cAdvisor服务获取该节点上所有容器的性能数据，并依次返回到heapster进行数据聚合。再通过kubedash进行展示，界面如下：

Mesos的监控方案

而Mesos提供一个mesos-exporter工具，用于导出mesos集群的监控数据prometheus，而prometheus是个集 db、graph、statistic、alert 于一体的监控工具，安装也非常简单，下载包后做些参数的配置，比如监控的对象就可以运行了，默认通过9090端口访问。而mesos-exporter工具只需要在每个slave节点上启动一个进程，再mesos-exporter监控配置到prometheus server的监控目标中就可以获取到相关的数据。架构如下：

在Prometheus的面板上我们可以看到Prometheus的监控对象可以为mesos-export，也可以为cAdvisor。

下面为Prometheus的展示界面：

采集工具的对比

cAdvisor 可以采集本机以及容器的资源监控数据，如CPU、 memory、filesystem and network usage statistics）。还可以展示Docker的信息及主机上已下载的镜像情况。因为cAdvisor默认是将数据缓存在内存中，在显示界面上只能显示1分钟左右的趋势，所以历史的数据还是不能看到，但它也提供不同的持久化存储后端，比如influxdb等。

Heapster的前提是使用cAdvisor采集每个node上主机和容器资源的使用情况，再将所有node上的数据进行聚合，这样不仅可以看到整个Kubernetes集群的资源情况，还可以分别查看每个node/namespace及每个node/namespace下pod的资源情况。这样就可以从cluster，node，pod的各个层面提供详细的资源使用情况。默认也是存储在内存中，也提供不同的持久化存储后端，比如influxdb等。

mesos-exporter的特点是可以采集 task 的监控数据。mesos在资源调度时是在每个slave上启动task executor，这些task executor可以是容器，也可以不是容器。而mesos-exporter则可以从task的角度来了解资源的使用情况，而不是一个一个没有关联关系的容器。

以上从几个典型的架构上介绍了一些监控，但都不是最优实践。需要根据生产环境的特点结合每个监控产品的优势来达到监控的目的。比如Grafana的图表展示能力强，但是没有告警的功能，那么可以结合Prometheus在数据处理能力改善数据分析的展示。下面列了一些监控产品，但并不是严格按表格进行分类，比如Prometheus和Zabbix都有采集，展示，告警的功能。都可以了解一下，各取所长。

本文转自开源中国-分享Docker监控体系（Kubernetes Mesos监控）

微信关注我们

原文链接：https://yq.aliyun.com/articles/680264

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Kubernetes集群高可用的策略和实践

Kubernetes高可用也许是完成了初步的技术评估，打算将生产环境迁移进Kubernetes集群之前普遍面临的问题。为了减少因为服务器当机引起的业务中断，生产环境中的业务系统往往已经做好了高可用，而当引入Kubernetes这一套新的集群管理系统之后，服务器不再是单一的个体，位于中央位置的Kubernetes Master一旦中断服务，将导致所有Node节点均不可控，有可能造成严重的事故。总体来讲这是一个被多次讨论，但暂时没有形成统一解决方案的话题。今天主要介绍一些Kubernetes Master高可用的策略，供大家参考。基本目标高可用是复杂的系统工程。出于篇幅的考虑以及能力的限制，今天我们先关注一个小目标：所有的Kubernetes Master服务器没有单点故障，任何一台服务器当机均不影响Kubernetes的正常工作。实现这一目标带来的直接收益是我们可以在不影响业务正常运行的前提下实现所有服务器的滚动升级，有助于完成系统组件升级以及安全补丁的下发。为了实现没有单点故障的目标，需要为以下几个组件建立高可用方案： etcd kube-apiserver kube-...

2018-12-17

791

条分缕析带你充分理解Kubernetes的各个细节与部分：它是什么，它如何解决容器编排问题，它包含哪些你必须掌握的关键对象，以及如何快速上手部署使用Kubernetes。容器的好处不胜枚举：一致的运行时环境、节省磁盘空间、低开销、良好的隔离性，等等。了解完这些优势，您以及您的同事可能都开始跃跃欲试要把应用程序打包到容器中并准备运行它。然后突然之间或许您会发现，容器运行起来之后有一些问题也接踵而来，您需要一种方法来管理所有正在运行的容器及其生命周期：它们如何相互连接，它们应该运行在什么硬件之上，它们如何获取数据存储，容器因各种原因停止运行的话您该如何处理错误······ 这就是Kubernetes大显身手的地方了。在本文中，我们将了解Kubernetes是什么，它如何解决容器编排问题，它背后是由哪些理论支撑，如何将该理论直接与实际操作绑定，最终帮助您充分理解Kubernetes的各个细节与部分。 Kubernetes: 历史 Kubernetes，也被称为k8s（k... 8个字母...和s）或kube，是希腊语中的单词，意为州长、舵手或船长。拿真正的航海的情景来理解，大型船舶装载...

2018-12-17

700

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。