flume分布式日志收集系统操作
2.flume里面有个核心概念,叫做agent。agent是一个java进程,运行在日志收集节点。
3.agent里面包含3个核心组件:source、channel、sink。
3.1 source组件是专用于收集日志的,可以处理各种类型各种格式的日志数据,包括avro、thrift、exec
、jms、spooling directory、netcat、sequence generator、syslog、http、legacy、自定义。
source组件把数据收集来以后,临时存放在channel中。
3.2 channel组件是在agent中专用于临时存储数据的,可以存放在memory、jdbc、file、自定义。
channel中的数据只有在sink发送成功之后才会被删除。
3.3 sink组件是用于把数据发送到目的地的组件,目的地包括hdfs、logger、avro、thrift、ipc、file
、null、hbase、solr、自定义。
4.在整个数据传输过程中,流动的是event。事务保证是在event级别。
5.flume可以支持多级flume的agent,支持扇入(fan-in)、扇出(fan-out)。
6.书写配置文件example
#定义agent名, source、channel、sink的名称
a4.sources = r1
a4.channels = c1
a4.sinks = k1
#具体定义source
a4.sources.r1.type = spooldir
a4.sources.r1.spoolDir = /home/hadoop/logs
#具体定义channel
a4.channels.c1.type = memory
a4.channels.c1.capacity = 10000
a4.channels.c1.transactionCapacity = 100
#定义拦截器,为消息添加时间戳
a4.sources.r1.interceptors = i1
a4.sources.r1.interceptors.i1.type = org.apache.flume.interceptor.TimestampInterceptor
$Builder
#具体定义sink
a4.sinks.k1.type = hdfs
a4.sinks.k1.hdfs.path = hdfs://ns1/flume/%Y%m%d
a4.sinks.k1.hdfs.filePrefix = events-
a4.sinks.k1.hdfs.fileType = DataStream
#不按照条数生成文件
a4.sinks.k1.hdfs.rollCount = 0
#HDFS上的文件达到128M时生成一个文件
a4.sinks.k1.hdfs.rollSize = 134217728
#HDFS上的文件达到60秒生成一个文件
a4.sinks.k1.hdfs.rollInterval = 60
#组装source、channel、sink
a4.sources.r1.channels = c1
a4.sinks.k1.channel = c1
7.执行命令~/flume/bin/flume-ng agent -n agent1 -c conf -f conf/example -
Dflume.root.logger=DEBUG,console
运行的时候可能缺少jar包 要导入
还要将hadoop的core-site.xml和hdfs-site.xml拷贝到flume的conf目录下
还要将flume机器的hosts文件修改配置

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
众推架构的进一步讨论
讨论内容 昨天的架构基本确定成如下图所示: 针对此架构,大家分别提了不同的看法: 【大侠】秦刘 9:53:58 工作节点的爬虫 应该就是普通的一个cmd形式的小程序,对不对? 【大侠】秦刘 9:54:38 webapp的作用应该只是这个 【大侠】大常 9:55:11 这个是什么的设计图? 【大侠】大常 9:55:16 怎么有点看不太懂呢? 【师兄】深简 9:56:07 感觉看懂了。 【师兄】深简 9:56:11 【宗师】北张9:56:28 对 【掌门】广杨 9:56:33 感觉像不像webmvc的思路 【大侠】大常 9:57:11 老大 我后面问的那个图是大概的模块耦合关系么? 【大侠】秦刘 9:57:31 我感觉webmvc管理master,master和工作节点类似Hadoop的心跳 【掌门】广立 9:57:33 【宗师】北张9:58:26 那就是cdoop和上边的四个同级? 【大侠】秦刘 9:59:13 cdoop什么含义? 【路人】四玖 9:59:30 我说这一坨 都基于PLUGIN 【宗师】北张9:59:37 主要是分布式,参考hadoop 【路人】四玖 9:59:38 会被...
- 下一篇
使用hadoop平台进行小型网站日志分析
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq1010885678/article/details/44688325 0.上传日志文件到linux中,通过flume将文件收集到hdfs中。 执行命令/home/cloud/flume/bin/flume-ng agent -n a4 -c conf -f /home/cloud/flume/conf/a4.conf -Dflume.root.logger=DEBUG,console 1.建立hive表 create external table bbslog (ip string,logtime string,url string) partitioned by (logdate string) row format delimited fields terminated by '\t' location '/cleaned'; 2.创建shell脚本 touch daily.sh 添加执行权限 chmod +x daily.sh daily.sh: CURRENT=`date +...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Windows10,CentOS7,CentOS8安装Nodejs环境
- MySQL8.0.19开启GTID主从同步CentOS8
- Docker安装Oracle12C,快速搭建Oracle学习环境
- CentOS7,CentOS8安装Elasticsearch6.8.6
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- 2048小游戏-低调大师作品
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Linux系统CentOS6、CentOS7手动修改IP地址