首页 文章 精选 留言 我的
优秀的个人博客,低调大师

微信关注我们

原文链接:https://yq.aliyun.com/articles/60407

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Spark Streaming 误用.transform(func)函数导致的问题解析

问题描述 今天有朋友贴了一段 gist,大家可以先看看这段代码有什么问题。 特定情况你会发现UI 的Storage标签上有很多新的Cache RDD,然后你以为是Cache RDD 不被释放,但是通过Spark Streaming 数据清理机制分析我们可以排除这个问题。 接着通过给RDD的设置名字,名字带上时间,发现是延时的Batch 也会产生cache RDD。那这是怎么回事呢? 另外还有一个问题,也是相同的原因造成的:我通过KafkaInputStream.transform 方法获取Kafka偏移量,并且保存到HDFS上。然后发现一旦产生job(包括并没有执行的Job),都会生成了Offset,这样如果出现宕机,你看到的最新Offset 其实就是延时的,而不是出现故障时的Offset了。这样做恢复就变得困难了。 问题分析 其实是这样,在transform里你可以做很多复杂的工作,但是transform接受到的函数比较特殊,是会在TransformedDStream.compute方法中执行的,你需要确保里面的动作都是transformation(延时的),而不能是Action(譬...

Kettle 添加对应hadoop版本的支持

在hdp的官网上有一个ETL工具叫做Talend Open Studio,然后我就下了,并且在群里询问了一下,突然间冒出来一群ETL高手,经高人指点认识了一款叫做Kettle的软件,经过这两天的试用,从直观感受上,Kettle更容易使用和上手,资料更多,界面更友好。。。 优点很多,这里不一一列举了,关键是它对hadoop的支持我觉得是很全面的。 但是这里面有一个问题出现了,它不支持我现在用的版本,我用的是Hortonworks的HDP1.3,好吧,经过不懈的努力,终于被我搜索到了,哈哈,原来它可以支持的,并且官方已经提供了相应的包提供使用,只是不太好找罢了!下面把更新的过程和大家分享一下。 先提供文中所需内容的下载地址: 1.插件升级包 https://support.pentaho.com/entries/24445558-Big-Data-Plugin-Version-1-3-3-for-Pentaho-BA-Server-4-8-1-x-and-PDI-4-4-1-x 2.hdp1.3的支持包 https://pentaho.app.box.com/s/0wqy2qty3szv7...

相关文章

发表评论

资源下载

更多资源
Mario

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

腾讯云软件源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题,腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构,目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring

Spring框架(Spring Framework)是由Rod Johnson于2002年提出的开源Java企业级应用框架,旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念,提供核心容器、应用上下文、数据访问集成等模块,支持整合Hibernate、Struts等第三方框架,其适用范围不仅限于服务器端开发,绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能,例如代码缩略图,Python的插件,代码段等。还可自定义键绑定,菜单和工具栏。Sublime Text 的主要功能包括:拼写检查,书签,完整的 Python API , Goto 功能,即时项目切换,多选择,多窗口等等。Sublime Text 是一个跨平台的编辑器,同时支持Windows、Linux、Mac OS X等操作系统。

用户登录
用户注册