Kafka实战(三) -Kafka的自我修养
Apache Kafka是消息引擎系统,也是一个分布式流处理平台(Distributed Streaming Platform) Kafka是LinkedIn公司内部孵化的项目。LinkedIn最开始有强烈的数据强实时处理方面的需求,其内部的诸多子系统要执行多种类型的数据处理与分析,主要包括业务系统和应用程序性能监控,以及用户行为数据处理等。 遇到的主要问题: 数据正确性不足数据的收集主要采用轮询(Polling),确定轮询间隔时间就成了高度经验化的难题。虽然可以采用一些启发式算法(Heuristic)来帮助评估,但一旦指定不当,还是会造成较大的数据偏差。 系统高度定制化,维护成本高各子系统都需要对接数据收集模块,引入了大量的定制开销和人工成本 LinkedIn工程师尝试过使用ActiveMQ解决这些问题,但并不理想 显然需要有一个“大一统”