阿里技术架构内部总结:HDFS监控落地的思考
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。 HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。在大数据生态圈中,HDFS是最重要的底层分布式文件系统,它的稳定性关乎整个生态系统的健康。 本文介绍了HDFS相关的重要监控指标,分享指标背后的思考。 一、HDFS监控挑战 HDFS是Hadoop生态的一部分,监控方案不仅需适用HDFS,其他组件如Yarn、Hbase、Hive等,也需适用 HDFS API提供的指标较多,部分指标没必要实时采集,但故障时需能快速获取到 Hadoop相关组件的日志,比较重要,如问题定位、审计等 监控方案不仅能满足监控本身,故障定位涉及指标也应覆盖 二、Hadoop监控方案 Hadoop监控数据采集是通过HTTP API,或者JMX。实际中,用到比较多的产品主要有:CDH、Ambari,此外,还有部分工具,如Jmxtrans、HadoopExporter(用于Prometheus)。 CDH是一款开源的集部署、监控、操作等于一体的Hadoop生态组件管理工具,也提供收费...
