解析SparkStreaming和Kafka集成的两种方式
spark streaming是基于微批处理的流式计算引擎,通常是利用spark core或者spark core与spark sql一起来处理数据。在企业实时处理架构中,通常将spark streaming和kafka集成作为整个大数据处理架构的核心环节之一。
针对不同的spark、kafka版本,集成处理数据的方式分为两种:Receiver based Approach和Direct Approach,不同集成版本处理方式的支持,可参考下图:
Receiver based Approach
基于receiver的方式是使用kafka消费者高阶API实现的。
对于所有的receiver,它通过kafka接收的数据会被存储于spark的executors上,底层是写入BlockManager中,默认200ms生成一个block(通过配置参
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
内核调优 | 如何提升Elasticsearch master调度性能40倍
作者:兴丰__阿里云Elasticsearch团队 高级开发工程师 本文字数:1299阅读时间:2~5分钟 以下是正文 背景 我们在协助某Elasticsearch用户准备将自建集群迁往阿里云Elasticsearch的过程中发现,自建集群从ES6.3.2版本升级到7.4.0版本后,master变得特别卡,创建索引和删除耗时超过1分钟。该集群当时有3个专有主节点、10个热节点、2个冷节点,超过5万个shard,绝大部分索引/shard都是关闭的,当索引过期移动到冷节点就close掉,需要查询时再调用open命令打开。同时,在试过6.x到7.x的多个版本后,发现自7.2.0后的版本都有问题,而即使把专有主节点升级到32c64g的规格,还是不行。 思考 由于是自建的线上生产集群,登录机器和查看集群状态极为不便,也有一定的风险。因此计划先从Elas
- 下一篇
利用“情感操作系统”实现人机交互,「小胖机器人」落地商用教育实现量产
云栖号:https://yqh.aliyun.com第一手的上云资讯,不同行业精选的上云企业案例库,基于众多成功案例萃取而成的最佳实践,助力您上云决策! 根据《中国机器人产业发展2019报告》数据,2019年国内的服务机器人市场规模有望达22亿美元,同比增长约33.1%,高于全球服务机器人市场增速。尽管市场规模高速增长,但是服务机器人距离产业化却还有一定距离,目前国内A股很少有服务机器人上市公司,大部分是由并购切入;国内创业企业也大多处在落地场景的探索状态,量产始终是问题。 小胖机器人通过切入商用机器人在教育领域,并且将应用的细分领域定位在幼儿园、小学场景,重点针对解决教师重复性教学的问题上,目前客户数量已经达到3000多家。 小胖机器人成立于2015年,是一家智能机器人服务研发商,目前拥有家用和商用两大产品线,其中商用服务机器人(小胖)目前占绝大部分营收,也是公司当前占领主要市场份额的产品。 从技术路线上看,公司通过自主研发人工智能视觉识别、机器视觉、语音识别等技术来组建导航认知系统,使机器人在陌生环境中可以通过构建地图、规划路径和自主移动来准确识别命令并达到目的地,搭配红外传感器和...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Docker安装Oracle12C,快速搭建Oracle学习环境
- CentOS7设置SWAP分区,小内存服务器的救世主
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS8安装Docker,最新的服务器搭配容器使用
- CentOS关闭SELinux安全模块