Spark Tungsten in-heap / off-heap 内存管理机制-低调大师

Spark Tungsten in-heap / off-heap 内存管理机制

2016-09-07 542 89

前言

发现目前还没有这方面的文章，而自己也对这块比较好奇，所以就有了这篇内容。

分析方式基本是自下而上，也就是我们分析的线路会从最基础内存申请到上层的使用。我们假设你对sun.misc.Unsafe 的API有一些最基本的了解。

in-heap 和 off-heap (MemoryAllocator)

首先我们看看 Tungsten 的 MemoryAllocator

off-heap => org.apache.spark.unsafe.memory.UnsafeMemoryAllocator

in-heap => org.apache.spark.unsafe.memory.HeapMemoryAllocator

off-heap 获取内存很简单：

long address = Platform.allocateMemory(size);

这样就拿到内存的地址了。这是一个绝对地址，64bit 应该够大。注意，所有的内存都需要8byte对齐。

in-heap 则是维护了一个long类型数组：

 long[] array = new long[(int) (size / 8)];

然后会拿到 Platform.LONG_ARRAY_OFFSET 的地址，以及array对象的所处的相对地址，这样就能拿到一个绝对地址了，并且进行操作了。in-heap的对象有个特点，如果发生了GC,地址可能会变化，所以我们需要一直持有array的引用。

不管 off-heap,in-heap 最终其实都是地址的管理，所以我们抽象出了一个类来描述这个信息。

 org.apache.spark.unsafe.memory.MemoryBlock

一共有四个属性：

obj 如果是off-heap,则为null。否则则为一个array数组

offset 如果是off-heap 则为绝对偏移量，否则为 Platform.LONG_ARRAY_OFFSET

pageNumber

length 申请的内存的长度，这个in/off-heap 是一致的。

内存管理器(MemoryManager)

实际的内存管理放在了两个层次：

org.apache.spark.unsafe.memory.ExecutorMemoryManager
org.apache.spark.unsafe.memory.TaskMemoryManager

我们先分析下他们的关系，TaskMemeoryManager是针对每个Task而言的，但是这些Task都是运行在一个JVM实例上，对应的是Executor,所以内存应该由ExecutorMemoryManager统一进行管理。但是每个task需要交互，所以就让TaskMemeoryManager来进行这种交互。这是他们的分工，设计的很漂亮。

ExecutorMemoryManager

我们先分析下ExecutorMemoryManager，该类根据你的配置，决定是使用什么样的MemoryAllocator，默认是in-heap。你当然也可以设置啦，通过：

 spark.unsafe.offHeap=true

来进行开启off-heap 模式。

另外，如果发现你是在使用in-heap模式，则ExecutorMemoryManage 会维护一个MemoryBlock的池子，对象池，大家应该很熟悉了。那为啥只有in-heap模式有池子呢？那是因为in-heap 需要申请long[] 数组，维护一个池子，就不用到heap里反复去做申请动作了。

该类有两个核心方法：

 MemoryBlock allocate(long size)
 void free(MemoryBlock memory)

看名字就知道含义了：申请内存和释放内存。内存的单元是MemoryBlock,逻辑上是Page的概念。

TaskMemeoryManager

这个会复杂些。然而，其实也没多复杂，好吧我又开始犯话唠了毛病了(O(∩_∩)O)。

为了统一对in-heap,off-heap进行建模，避免上层应用要自己区分自己处理的是in-heap还是off-heap内存块,所以这个时候就提出了一个Page的概念，并且使用逻辑地址来做指针，通过这个逻辑地址可以定位到特定一条记录在MemoryBlock的位置。

那么逻辑地址怎么表示呢？答案是用一个Long类型(64-bit)来表示。任何一条记录的位置都可以用一个Long来记录。

我们先来分析复杂的，in-heap模式：

[13-bit page num][54-bit offset]

这样就能可以表示8192个page。一个Page对应一个MemoryBlock。然后54-bit 可以表示Pb级别的，也就是说这个MemoryBlock可以是超级大的。

不过如果你还记得前文提到的in-heap模式里使用了一个long[]数组作为数据存储的，那么long的长度最大被限制为 Int的最大值，2^32 * 8，也就是32GB。然后所有的Page加起来，大约35个TB。足够大了，其实。

当然这里是这里的限制，在上层里，比如shuffle，可能又会有其他的限制，导致能表示的内存会更小些。这个后续的文章我会进一步阐述。

申请一个Page的流程为：

申请到空闲的Page number号
进行实际的内存分配，得到一个MemoryBlock
将Page number 赋给MemoryBlock

另外这个类也提供了一个不使用Page管理的方法申请内存，然后通过 allocatedNonPageMemory 对象进行追踪。

得到MemoryBlock，就代表我们真的拿到了内存，现在我们还要做一件事情，就是把一个记录用一个long类型表示出来,TaskMemoryManager 提供了encodePageNumberAndOffset(MemoryBlock page, long offsetInPage) 方法进行编码，编码的方式就是其那面提到的：

  [13-bit page num][54-bit offset]

内部具体的就是一些位操作了。对应的还有各种decode方法。

你会好奇，只有offset,怎么知道一条记录的长度的？这个长度应该也要存储，才能还原回一条信息吧？

目前基本的做法是从offset开始，前四个字节来表示这条记录的长度，然后后面放具体的字节数组。为了解释这个问题，我从UnsafeShuffleExternalSorter类里扣了一段代码出来：

获得这条记录的逻辑地址，也就是一个64-bit的编码

final long recordAddress =  taskMemoryManager.encodePageNumberAndOffset(dataPage, dataPagePosition);
//dataPageBaseObject 其实就是数组对象的地址，然后以他为基准， 在dataPagePosition 处写入一个int类型数据，这个就是内容的长度。实际的内容就会放到这个位置之后
Platform.putInt(dataPageBaseObject, dataPagePosition, lengthInBytes);
//最后把数据要拷贝的实际的内存中，就需要多要4个字节了。所以这里要加回来
dataPagePosition += 4;
Platform.copyMemory(  recordBaseObject, recordBaseOffset, dataPageBaseObject, dataPagePosition, lengthInBytes);

上面分析的都是in-heap。那off-heap呢？整个流程也是一致的。区别在于 off-heap拿到的是绝对地址，不是某个页的偏移量，为了统一处理，在进行编码的时候，我们要通过下面的公式重新算off-heap 在page中的相对位置：

   offsetInPage -= page.getBaseOffset();

这里，page.getBaseOffset()是page对应的内存块的起始位置，也就是MemoryBlock的offset变量。如果你还记得上面off-heap申请MemoryBlock的方式，这个就是一开始拿到的偏移量。

这样就拿到相对于MemoryBlock的相对地址了，处理起来就可以和in-heap一致了。

解析的时候，就是反过来就行了，重新得到实际的绝对地址，然后类似in-heap,往前四个字节写长度，后面写实际的内容。

总结

我们看到，Spark Tungsten中，内存管理机制其实还是比较简洁明了的。了解这个本身可能用处不是很大，对于实际上层的应用，权当做好玩吧。

微信关注我们

原文链接：https://yq.aliyun.com/articles/60187

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

2016-09-08 00:00:00

hadoop 参数

看《Hadoop：权威指南》的时候收集了书上写的一些需要优化的参数，记录了一下子，给大家分享一下吧。 1.mapred.task.timeout 任务超时时间，默认是10分钟 2.mapred.map.max.attempts mapred.reduce.max.attempts 默认任务失败重复次数为4 3.mapred.max.map.failures.percent mapred.reduce.map.failures.percent 不触发错误的失败的最大百分比 4.mapred.jobtracker.taskScheduler 作业调度算法设置,默认是FIFO 5.io.sort.mb io.sort.spill.percent 缓冲区大小默认为100MB，以及缓冲区阀值默认为0.8，超过80%就保存到硬盘 6.io.sort.factor 默认为10，一次只能合并10个溢出文件 7.mapred.compress.map.output 默认为false，不压缩输出文件压缩算法由mapred.map.output.compression.codec指定 8.tracker....

866

2016-09-08 00:00:00

Hbase 学习(一) hbase配置文件同步

最近在狂啃hadoop的书籍，这部《hbase：权威指南》就进入我的视野里面了，啃吧，因为是英文的书籍，有些个人理解不对的地方，欢迎各位拍砖。 HDFS和Hbase配置同步 hbase的配置中有一些和hdfs关联的配置，当hdfs中修改了，但是hbase中修改了，hbase中是不会知道的，比如dfs.replication，有时候我们想增加备份的数量，在hdfs中设置为5了，但是hbase中默认为3，这样hbase还是只保存3份。那么有什么方法可以使他们的配置文件同步，有三种方法：（1）在hbase-env.sh的HBASE_CLASSPATH环境变量增加HADOOP_CONF_DIR。（2）在${HBASE_HOME}/conf下放一份hadoop的配置文件hdfs-site.xml (or hadoop-site.xml)。（3）直接在hbase-site.xml中添加。从上述三种方法当中，目测是第一种方法比较靠谱，当然要同步配置文件还有别的方法，后续再进行介绍。 Hbase配置文件同步的脚本以下这两个脚本都可以实现集群的hbase配置文件同步，第二个还带有删除之前配置...

570

资源下载

更多资源

优质分享Android(本站安卓app)

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Oracle Database，又名Oracle RDBMS

Oracle Database，又名Oracle RDBMS，或简称Oracle。是甲骨文公司的一款关系数据库管理系统。它是在数据库领域一直处于领先地位的产品。可以说Oracle数据库系统是目前世界上流行的关系数据库管理系统，系统可移植性好、使用方便、功能强，适用于各类大、中、小、微机环境。它是一种高效率、可靠性好的、适应高吞吐量的数据库方案。

Eclipse（集成开发环境）

Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言，它只是一个框架和一组服务，用于通过插件组件构建开发环境。幸运的是，Eclipse 附带了一个标准的插件集，包括Java开发工具（Java Development Kit，JDK）。

Sublime Text 一个代码编辑器

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。