EMR上如何进行流式SQL调试-低调大师

EMR上如何进行流式SQL调试

2019-09-28 807

1.前言

从EMR-3.21.0版本开始，EMR正式发布了Spark Streaming SQL功能，支持使用Spark SQL进行流式数据处理。经过两个版本的迭代，不少用户反馈当使用SQL进行流式作业开发时，查询结果正确性的调试过程比较麻烦。当前，我们需要完成用户真实的数据流开发，才能在结果存储系统中查看结果是否正确。有些数据存储系统又不方便查看，例如Kafka。这里简单罗列几点不便于调试的问题：

无法在控制台输出中直观看到SQL的执行结果，传统的需要在输出存储系统查看。
数据是变化的：包括输入数据和输出结果都是不断变化的，无法方便看到每个批次的执行结果。
每个批次执行的metrics也不方便查看，传统的需要在日志中查找。

除此外，还有一些高级功能也可以考虑到调试工具中，例如：

脱离真实数据源的数据模拟功能。
数据采样功能。

本文将介绍EMR提

微信关注我们

原文链接：https://yq.aliyun.com/articles/719714

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

深入浅出：Hadoop的start-balancer.sh与hdfs balancer分布式数据均衡

Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况，比如集群中添加新的数据节点。当HDFS出现不平衡状况的时候，将引发很多问题，比如：1、MR程序无法很好地利用本地计算的优势2、机器之间无法达到更好的网络带宽使用率，机器磁盘无法利用等等。可见，保证HDFS中的数据平衡是非常重要的。在Hadoop中，包含一个Balancer程序，通过运行这个程序，可以使得HDFS集群达到一个平衡的状态，使用这个程序的命令如下： $HADOOP_HOME/bin/start-balancer.sh –t 10% 这个命令中-t参数后面跟的是HDFS达到平衡状态的磁盘使用率偏差值。如果机器与机器之间磁盘使用率偏差小于10%，那么我们就认为HDFS集群已经达到了平衡的状态。Hadoop的开发人员在开发Balancer程序的时候，遵循了以下几点原则：1.在执行数据重分布的过程中，必须保证数据不能出现丢失，不能改变数据的备份数，不能改变每一个rack中所具备的block数量。（这个原则导致了不同rack机柜之间的数据是不能移动的）2.系统管理员可以通过一条命令启动数据重分布程序或者停止数据...

2019-09-28

1244

激动人心的国庆长假终于到啦！面对人山人海的景点，很多小伙伴都机智的选择了宅在家里~刷剧、看动漫、打游戏、吃外卖...嗯，生活是不是有点无聊呢？是不是，缺了点什么？此时此刻，休闲放松之余，爱学习的你还有另一种选择：玩一玩今年新上架的阿里云大数据产品系列教程吧！内容良心，细节感人，手把手教你玩转阿里云大数据产品哦~传送门：MaxCompute：构建与优化数据仓库搭建互联网在线运营分析平台DataWorks：数据质量保障教程实现窃电用户自动识别教程Dataphin：基于Dataphin构建数据仓库如果在使用过程中觉得不爽，欢迎评论或私信！~

2019-09-28

779

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。