Flume-NG + HDFS + HIVE 日志收集分析
最近做了一个POC,目的是系统日志的收集和分析,此前有使用过splunk,虽然用户体验很好,但一是价格昂贵,二是不适合后期开发(splunk已经推出了SDK,后期开发已经变得非常容易)。在收集TB级别的日志量上flume-ng是更好的选择,因为后面的存储是扩展性极佳的HDFS。先简要介绍一下测试环境: 5台VM机器(RHEL6.3): 1, collector01 2, namenode 3, datanode01 4, datanode02 5, datanode03 第一台机器collector01用户日志收集,数据汇总到collector01后写入hdfs, 其余4台仅服务Hadoop相关服务,其上安装了CDH4.0,HDFS/MapReduce/hive等等。注意: 1, flume-ng如需将数据写入hdfs,本机也同样需要安装hadoop 相关的package 2, CDH4.0在使用中遇到不少bug,浪费了一些时间,建议使用CDH3 (当初选在CDH4.0 是因为有impalapackage,但此次测试并未加入impala部分) Flume-NG基本概念 Apache F...