使用Flume将日志导入OSS
前言 Apache Flume是一个高可用、高可靠的分布式日志采集、聚合与传输的系统。它基于流式的数据传输,架构简单、灵活。它简单可扩展的模型,也适合在线的数据分析。 上图是它的简单数据流模型。Flume的数据流由Event贯穿始终,这个Event由外部的Source生成(如Web Server),携带日志数据并带有一些额外的信息。Source捕获到Event后会进行格式化,然后会推送到一个或者多个Channel中。可以认为Channel是一个Event的缓冲区,它将负责保存Event直到Sink处理完该事件。 Flume的核心运行组件是Agent,一个Agent是一个JVM,是一个完整的数据收集工具。Flume的Agent由三部分组成:Source、Channel和Sink。其中,Flume目前支持了很多种类型的Sink: HDFS