EMR上如何进行流式SQL调试
1.前言
从EMR-3.21.0版本开始,EMR正式发布了Spark Streaming SQL功能,支持使用Spark SQL进行流式数据处理。经过两个版本的迭代,不少用户反馈当使用SQL进行流式作业开发时,查询结果正确性的调试过程比较麻烦。当前,我们需要完成用户真实的数据流开发,才能在结果存储系统中查看结果是否正确。有些数据存储系统又不方便查看,例如Kafka。这里简单罗列几点不便于调试的问题:
- 无法在控制台输出中直观看到SQL的执行结果,传统的需要在输出存储系统查看。
- 数据是变化的:包括输入数据和输出结果都是不断变化的,无法方便看到每个批次的执行结果。
- 每个批次执行的metrics也不方便查看,传统的需要在日志中查找。
除此外,还有一些高级功能也可以考虑到调试工具中,例如:
- 脱离真实数据源的数据模拟功能。
- 数据采样功能。
本文将介绍EMR提
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
深入浅出:Hadoop的start-balancer.sh与hdfs balancer分布式数据均衡
Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添加新的数据节点。当HDFS出现不平衡状况的时候,将引发很多问题,比如:1、MR程序无法很好地利用本地计算的优势2、机器之间无法达到更好的网络带宽使用率,机器磁盘无法利用等等。可见,保证HDFS中的数据平衡是非常重要的。在Hadoop中,包含一个Balancer程序,通过运行这个程序,可以使得HDFS集群达到一个平衡的状态,使用这个程序的命令如下: $HADOOP_HOME/bin/start-balancer.sh –t 10% 这个命令中-t参数后面跟的是HDFS达到平衡状态的磁盘使用率偏差值。如果机器与机器之间磁盘使用率偏差小于10%,那么我们就认为HDFS集群已经达到了平衡的状态。Hadoop的开发人员在开发Balancer程序的时候,遵循了以下几点原则:1.在执行数据重分布的过程中,必须保证数据不能出现丢失,不能改变数据的备份数,不能改变每一个rack中所具备的block数量。(这个原则导致了不同rack机柜之间的数据是不能移动的)2.系统管理员可以通过一条命令启动数据重分布程序或者停止数据...
- 下一篇
国庆宅在家?不如来玩玩阿里云大数据产品系列教程~
激动人心的国庆长假终于到啦! 面对人山人海的景点,很多小伙伴都机智的选择了宅在家里~刷剧、看动漫、打游戏、吃外卖...嗯,生活是不是有点无聊呢?是不是,缺了点什么?此时此刻,休闲放松之余,爱学习的你还有另一种选择:玩一玩今年新上架的阿里云大数据产品系列教程吧!内容良心,细节感人,手把手教你玩转阿里云大数据产品哦~传送门:MaxCompute:构建与优化数据仓库搭建互联网在线运营分析平台DataWorks:数据质量保障教程实现窃电用户自动识别教程Dataphin:基于Dataphin构建数据仓库如果在使用过程中觉得不爽,欢迎评论或私信!~
相关文章
文章评论
共有0条评论来说两句吧...