Kafka实战(三) -Kafka的自我修养
Apache Kafka是消息引擎系统,也是一个分布式流处理平台(Distributed Streaming Platform)
Kafka是LinkedIn公司内部孵化的项目。LinkedIn最开始有强烈的数据强实时处理方面的需求,其内部的诸多子系统要执行多种类型的数据处理与分析,主要包括业务系统和应用程序性能监控,以及用户行为数据处理等。
遇到的主要问题:
- 数据正确性不足
数据的收集主要采用轮询(Polling),确定轮询间隔时间就成了高度经验化的难题。虽然可以采用一些启发式算法(Heuristic)来帮助评估,但一旦指定不当,还是会造成较大的数据偏差。 - 系统高度定制化,维护成本高
各子系统都需要对接数据收集模块,引入了大量的定制开销和人工成本
LinkedIn工程师尝试过使用ActiveMQ解决这些问题,但并不理想
显然需要有一个“大一统”
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Apache Drill 常用Plugins配置
1.kafka { "type":"kafka", "kafkaConsumerProps":{ "bootstrap.servers":"hostname1:9092,hostname2:9092,hostname3:9092", "group.id":"drill-consumer" }, "enabled":true } 2.hive { "type":"hive", "configProps":{ "hive.metastore.uris":"thrift://hostname:9083", "javax.jdo.option.ConnectionURL":"jdbc:mysql://hostname:3306/hive", "hive.metastore.warehouse.dir":"/user/hive/warehouse", "fs.default.name":"hdfs://hostname:9000", "hive.metatore.sasl.enabled": false }, "enabled":true } 3.hbase { "type":"hbase" "...
- 下一篇
MaxCompute 最新特性介绍2019年8月版
摘要:距离上一次MaxCompute新功能的线上发布已经过去了大约一个季度的时间,而在这一段时间里,MaxCompute不断地在增加新的功能和特性,比如参数化视图、UDF支持动态参数、支持分区裁剪、生成建表DDL语句功能等功能都已经得到了广大开发者的广泛使用。那么,近期MaxCompute究竟还有哪些新特性呢?本文就为大家揭晓答案。以下内容根据视频及PPT整理而成。 MaxCompute与阿里云大数据产品解决方案 在介绍MaxCompute新功能前,我们先快速对阿里云的大数据产品解决方案进行介绍,以便不熟悉MaxCompute的朋友能快速建立认知。阿里云大数据解决方案中包含了数据接入、数据存储及处理分析、数据服务以及在线应用等这样的几个维度。通常的情况下,基于MaxCompute和阿里云大数据解决方案搭建的系统会通过DataWorks
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- 设置Eclipse缩进为4个空格,增强代码规范
- SpringBoot2整合Redis,开启缓存,提高访问速度
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- MySQL8.0.19开启GTID主从同步CentOS8
- Hadoop3单机部署,实现最简伪集群
- CentOS8编译安装MySQL8.0.19
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- SpringBoot2整合Thymeleaf,官方推荐html解决方案