Kafka实战(三) -Kafka的自我修养

Kafka是LinkedIn公司内部孵化的项目。LinkedIn最开始有强烈的数据强实时处理方面的需求,其内部的诸多子系统要执行多种类型的数据处理与分析,主要包括业务系统和应用程序性能监控,以及用户行为数据处理等。
遇到的主要问题:
- 数据正确性不足
数据的收集主要采用轮询(Polling),确定轮询间隔时间就成了高度经验化的难题。虽然可以采用一些启发式算法(Heuristic)来帮助评估,但一旦指定不当,还是会造成较大的数据偏差。 - 系统高度定制化,维护成本高
各子系统都需要对接数据收集模块,引入了大量的定制开销和人工成本
LinkedIn工程师尝试过使用ActiveMQ解决这些问题,但并不理想
显然需要有一个“大一统”