您现在的位置是：首页 > 文章详情

Apache Kafka开发入门指南之2

日期：2014-03-11点击：664收藏

Apache Kafka开发入门指南之2

作者：chszs，转载需注明。博客主页：http://blog.csdn.net/chszs

Apache Kafka目标是统一离线和在线处理，与Flume和Scribe相比较，Kafka在处理活动流数据方面更具优势。但是从架构的视野来看，Kafka与传统的消息系统（例如ActiveMQ或RabbitMQ）更相似一些。

注：Scribe是Facebook开源的日志收集系统，在Facebook内部已经得到大量的应用。它能够从各种日志源上收集日志，存储到一个中央存储系统（可以是NFS、分布式文件系统等），以便于进行集中统计分析处理。它为日志的“分布式收集、统一处理”提供了一个可扩展的、高容错的方案。当中央存储系统的网络或者机器出现故障时，Scribe会将日志转存到本地或者另一个位置，当中央存储系统恢复后，Scribe会将转存的日志重新传输给中央存储系统。Scribe通常与Hadoop结合使用。Scribe用于向HDFS中push日志，而Hadoop通过MapReduce作业进行定期处理。

注：Flume最早是Cloudera提供的高可用、高可靠、分布式的海量日志采集、聚合和传输的日志收集系统，目前归属于Apache，是Apache基金会下的一个孵化项目。Flume支持在日志系统中定制各类数据的发送方，用于收集数据；同时Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。Flume提供了从Console（控制台）、RPC（Thrift-RPC）、Text（文件）、Tail（UNIX tail）、Syslog（syslog日志系统，支持TCP和UDP等2种模式），Exec（命令执行）等数据源上收集数据的能力。Flume采用了多Master的方式。为了保证配置数据的一致性，Flume引入了ZooKeeper，用于保存配置数据，ZooKeeper本身可保证配置数据的一致性和高可用。另外，在配置数据发生变化时，ZooKeeper可以通知Flume Master节点。Flume Master间使用Gossip协议同步数据。

不少公司使用了Kafka：

1）LinkedIn

http://www.linkedin.com

LinkedIn公司使用Apache Kafka作为活动数据的流化和运营度量。

2）DataSift

http://www.datasift.com

DataSift公司使用Apache Kafka作为监控事件的收集器以及用户消费的实时数据流的跟踪器。

3）Twitter

http://www.twitter.com

Twitter公司使用Apache Kafka作为其Storm平台的一部分。

注：Storm是一个流处理架构。

4）Foursquare

http://www.foursquare.com