Spark Streaming 数据清理机制-低调大师

Spark Streaming 数据清理机制

2016-09-08 719

前言

为啥要了解机制呢？这就好比JVM的垃圾回收，虽然JVM的垃圾回收已经巨牛了，但是依然会遇到很多和它相关的case导致系统运行不正常。

这个内容我记得自己刚接触Spark Streaming的时候，老板也问过我，运行期间会保留多少个RDD? 当时没回答出来。后面在群里也有人问到了，所以就整理了下。文中如有谬误之处，还望指出。

DStream 和 RDD

我们知道Spark Streaming 计算还是基于Spark Core的，Spark Core 的核心又是RDD. 所以Spark Streaming 肯定也要和RDD扯上关系。然而Spark Streaming 并没有直接让用户使用RDD而是自己抽象了一套DStream的概念。 DStream 和 RDD 是包含的关系，你可以理解为Java里的装饰模式，也就是DStream 是对RDD的增强，但是行为表现和RDD是基本上差不多的。都具备几个条件：

具有类似的tranformation动作，比如map,reduceByKey等，也有一些自己独有的，比如Window，mapWithStated等
都具有Action动作，比如foreachRDD，count等

从编程模型上看是一致的。

所以很可能你写的那堆Spark Streaming代码看起来好像和Spark 一致的,然而并不能直接复用，因为一个是DStream的变换，一个是RDD的变化。

Spark Streaming中 DStream 介绍

DStream 下面包含几个类：

数据源类，比如InputDStream,具体如DirectKafkaInputStream等
转换类，典型比如MappedDStream,ShuffledDStream
输出类，典型比如ForEachDStream

从上面来看，数据从开始(输入)到结束(输出)都是DStream体系来完成的，也就意味着用户正常情况是无法直接去产生和操作RDD的，这也就是说，DStream有机会和义务去负责RDD的生命周期。

这就回答了前言中的问题了。Spark Streaming具备自动清理功能。

RDD 在Spark Stream中产生的流程

在Spark Streaming中RDD的生命流程大体如下：

在InputDStream会将接受到的数据转化成RDD,比如DirectKafkaInputStream 产生的就是 KafkaRDD
接着通过MappedDStream等进行数据转换，这个时候是直接调用RDD对应的map方法进行转换的
在进行输出类操作时，才暴露出RDD,可以让用户执行相应的存储，其他计算等操作。

我们这里就以下面的代码来进行更详细的解释：

val source  =   KafkaUtils.createDirectInputStream(....)
source.map(....).foreachRDD{rdd=>
    rdd.saveTextFile(....)
}

foreachRDD 产生ForEachDStream，因为foreachRDD是个Action,所以会触发任务的执行，会被调用generateJob方法。

 override def generateJob(time: Time): Option[Job] = {
    parent.getOrCompute(time) match {
      case Some(rdd) =>
        val jobFunc = () => createRDDWithLocalProperties(time, displayInnerRDDOps) {
          foreachFunc(rdd, time)
        }
        Some(new Job(time, jobFunc))
      case None => None
    }
  }

对应的parent是MappedDStream,也就是说调用MappedDStream.getOrCompute.该方法在DStream中，首先会在MappedDStream对象中的generatedRDDs 变量中查找是否已经有RDD,如果没有则触发计算，并且将产生的RDD放到generatedRDDs

@transientprivate[streaming] var generatedRDDs = new HashMap[Time, RDD[T]] ()

private[streaming] final def getOrCompute(time: Time): Option[RDD[T]] = {
    // If RDD was already generated, then retrieve it from HashMap,
    // or else compute the RDD
    generatedRDDs.get(time).orElse {
....
generatedRDDs.put(time, newRDD)
....

计算RDD是调用的compute方法，MappedDStream 的compute方法很简单，直接调用的父类也就是DirectKafkaInputStream的getOrCompute方法：

override def compute(validTime: Time): Option[RDD[U]] = {
    parent.getOrCompute(validTime).map(_.map[U](mapFunc))
  }

在上面的例子中，MappedDStream 的parent是DirectKafkaInputStream中,这是个数据源，所以他的compute方法会直接new出一个RDD.

从上面可以得出几个结论：

数据源以及转换类DStream都会维护一个generatedRDDs，可以按batchTime 进行获取
内部本质还是进行的RDD的转换

如果我们调用了cache会发生什么

这里又会有两种情况，一种是调用DStream.cache,第二种是RDD.cache。事实上他们是完全一样的。

DStream的cache 动作只是将DStream的变量storageLevel 设置为MEMORY_ONLY_SER，然后在产生(或者获取)RDD的时候，调用RDD的persit方法进行设置。所以DStream.cache 产生的效果等价于RDD.cache（也就是你自己调用foreachRDD 将RDD 都设置一遍）

进入正题，我们是怎么释放Cache住的RDD的

其实无所谓Cache不Cache住，RDD最终都是要释放的，否则运行久了，光RDD对象也能承包了你的内存。我们知道，在Spark Streaming中，周期性产生事件驱动Spark Streaming 的类其实是:

org.apache.spark.streaming.scheduler.JobGenerator

他内部有个永动机(定时器),定时发布一个产生任务的事件:

private val timer = new RecurringTimer(clock, ssc.graph.batchDuration.milliseconds,  longTime => eventLoop.post(GenerateJobs(new Time(longTime))), "JobGenerator")

然后通过processEvent进行事件处理：

  /** Processes all events */
  private def processEvent(event: JobGeneratorEvent) {
    logDebug("Got event " + event)
    event match {
      case GenerateJobs(time) => generateJobs(time)
      case ClearMetadata(time) => clearMetadata(time)
      case DoCheckpoint(time, clearCheckpointDataLater) =>
        doCheckpoint(time, clearCheckpointDataLater)
      case ClearCheckpointData(time) => clearCheckpointData(time)
    }
  }

目前我们只关注ClearMetadata 事件。对应的方法为：

private def clearMetadata(time: Time) {
    ssc.graph.clearMetadata(time)

    // If checkpointing is enabled, then checkpoint,
    // else mark batch to be fully processed
    if (shouldCheckpoint) {
      eventLoop.post(DoCheckpoint(time, clearCheckpointDataLater = true))
    } else {
      // If checkpointing is not enabled, then delete metadata information about
      // received blocks (block data not saved in any case). Otherwise, wait for
      // checkpointing of this batch to complete.
      val maxRememberDuration = graph.getMaxInputStreamRememberDuration()
      jobScheduler.receiverTracker.cleanupOldBlocksAndBatches(time - maxRememberDuration)
      jobScheduler.inputInfoTracker.cleanup(time - maxRememberDuration)
      markBatchFullyProcessed(time)
    }
  }

首先是清理输出DStream(比如ForeachDStream),接着是清理输入类(基于Receiver模式)的数据。

ForeachDStream 其实调用的也是DStream的方法。该方法大体如下：

private[streaming] def clearMetadata(time: Time) {
    val unpersistData = ssc.conf.getBoolean("spark.streaming.unpersist", true)
    val oldRDDs = generatedRDDs.filter(_._1 <= (time - rememberDuration))
    logDebug("Clearing references to old RDDs: [" +
      oldRDDs.map(x => s"${x._1} -> ${x._2.id}").mkString(", ") + "]")
    generatedRDDs --= oldRDDs.keys
    if (unpersistData) {
      logDebug("Unpersisting old RDDs: " + oldRDDs.values.map(_.id).mkString(", "))
      oldRDDs.values.foreach { rdd =>
        rdd.unpersist(false)
        // Explicitly remove blocks of BlockRDD
        rdd match {
          case b: BlockRDD[_] =>
            logInfo("Removing blocks of RDD " + b + " of time " + time)
            b.removeBlocks()
          case _ =>
        }
      }
    }
    logDebug("Cleared " + oldRDDs.size + " RDDs that were older than " +
      (time - rememberDuration) + ": " + oldRDDs.keys.mkString(", "))
    dependencies.foreach(_.clearMetadata(time))
  }

大体执行动作如下描述：

根据记忆周期得到应该剔除的RDD
根据是否要清理cache数据，进行unpersit 操作，并且显示的移除block
根据依赖调用其他的DStream进行动作清理

这里我们还可以看到，通过参数spark.streaming.unpersist 你是可以决定是否手工控制是否需要对cache住的数据进行清理。

这里你会有两个疑问：

dependencies 是什么？
rememberDuration 是怎么来的？

dependencies 你可以简单理解为父DStream,通过dependencies 我们可以获得已完整DStream链。

rememberDuration 的设置略微复杂些,大体是 slideDuration,如果设置了checkpointDuration 则是2*checkpointDuration 或者通过DStreamGraph.rememberDuration（如果设置了的话，譬如通过StreamingContext.remember方法,不过通过该方法设置的值要大于计算得到的值会生效）

另外值得一提的就是后面的DStream 会调整前面的DStream的rememberDuration，譬如如果你用了window* 相关的操作，则在此之前的DStream 的rememberDuration 都需要加上windowDuration。

然后根据Spark Streaming的定时性，每个周期只要完成了，都会触发清理动作,这个就是清理动作发生的时机。代码如下：

def onBatchCompletion(time: Time) {     
    eventLoop.post(ClearMetadata(time))
}

总结下

Spark Streaming 会在每个Batch任务结束时进行一次清理动作。每个DStream 都会被扫描，不同的DStream根据情况不同，保留的RDD数量也是不一致的，但都是根据rememberDuration变量决定,而该变量会被下游的DStream所影响，所以不同的DStream的rememberDuration取值是不一样的。

微信关注我们

原文链接：https://yq.aliyun.com/articles/60273

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

自定义Spark Partitioner提升es-hadoop Bulk效率

前言之前写过一篇文章，如何提高ElasticSearch 索引速度。除了对ES本身的优化以外，我现在大体思路是尽量将逻辑外移到Spark上,Spark的分布式计算能力强，cpu密集型的很适合。这篇文章涉及的调整也是对 SparkES 多维分析引擎设计中提及的一个重要概念“shard to partition ,partition to shard ” 的实现。不过目前只涉及到构建索引那块。问题描述当你bulk数据到集群，按照ElasticSearch Bulk 源码解析所描述的: 接着通过executeBulk方法进入原来的流程。在该方法中，对bulkRequest.requests 进行了两次for循环。第一次判定如果是IndexRequest就调用IndexRequest.process方法，主要是为了解析出timestamp,routing,id,parent 等字段。第二次是为了对数据进行分拣。大致是为了形成这么一种结构：第二次就是对提交的数据进行分拣，然后根据route/_id 等值找到每个数据所属的Shard，最后将数据发送到对应Shard所在的Node节点...

2016-09-08

670

前言很多初学者其实对Spark的编程模式还是RDD这个概念理解不到位，就会产生一些误解。比如，很多时候我们常常以为一个文件是会被完整读入到内存，然后做各种变换，这很可能是受两个概念的误导： RDD的定义，RDD是一个分布式的不可变数据集合 Spark 是一个内存处理引擎如果你没有主动对RDDCache/Persist,它不过是一个概念上存在的虚拟数据集，你实际上是看不到这个RDD的数据的全集的(他不会真的都放到内存里)。 RDD的本质是什么一个RDD 本质上是一个函数，而RDD的变换不过是函数的嵌套。RDD我认为有两类：输入RDD,典型如KafkaRDD,JdbcRDD 转换RDD，如MapPartitionsRDD 我们以下面的代码为例做分析： sc.textFile("abc.log").map().saveAsTextFile("") textFile 会构建出一个NewHadoopRDD, map函数运行后会构建出一个MapPartitionsRDD saveAsTextFile触发了实际流程代码的执行所以RDD不过是对一个函数的封装，当一个函数对数据处理完成后，我...

2016-09-08

760

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。