Shuffle相关分析-低调大师

Shuffle相关分析

2015-10-09 755

Shuffle描述是一个过程，表现出的是多对多的依赖关系。Shuffle是连接map阶段和Reduce阶段的纽带，每个Reduce Task都会从Map Task产生的数据里读取其中的一片数据。Shuffle通常分为两个部分:Map阶段的数据准备和Reduce阶段的数据副本。

Map阶段根据Reduce阶段的Task数量来决定每个Map Task输出的数据分片的个数，这些数据分片可能保存在内存中或者磁盘上，这些分片的存在形式可能是每个分片一个文件，也可能是多个分片放在一个数据文件中，外加一个索引来记录每个分片在数据文件中的偏移量。（RDD中的窄依赖除外，恰好是一对一的）

1、 Shuffle写

Spark中Shuffle输出的ShuffleMapTask会为每个ResultTask创建对应的Bucket,ShuffleMapTask产生的结果会根据设置的partitionner得到对应的BucketId.然后填充到对应的Bucket中去，所以每个ShuffleMapTask创建Bucket的数据是和ResultTask的数目相等的。

ShuffleMapTask创建的Bucket对应磁盘上的一个文件，用于存储结果，此文件也被成为BlockFile.通过spark.shuffle.file.buffer.kb属性配置的缓冲区就是用来创建FastBufferedOutputStream输出流的。如果在配置文件中设置了spark.shuffle.consolidateFiles属性为true,则ShuffleMapTask所产生的Bucket就不一定单独对应一个文件了，而是对应文件的一部分，这样做会大大减少产生的BlockFile文件数量。

2、 Shuffle读

Spark可以通过两种方式读数据，一种是普通的socket方式，另一种是使用Netty框架。Netty方式可以通过配置spark.shuffle.use.netty属性为true启动。Netty框架时，BlockManager会创建ShuffleSender专门用于发送数据，如果ResultTask所需要的数据恰好在本节点，则直接去磁盘上读即可，不再通过网络获取。MapReduce取数据时，即使数据在本地还是要走一遍网络传输。

微信关注我们

原文链接：https://yq.aliyun.com/articles/609180

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Spark运行流程概述

Application 指用户编写的Spark应用程序，其中包含了一个Driver功能的代码和分布在集群中多个节点上运行的Executor代码。 Driver Spark中的Driver即运行上述Application的main()函数并创建SparkContext.创建的目的是为了初始化Spark的运行环境。SparkContext负责与ClusterManager通信，进行资源的申请、任务的分配和监控等。当Executor部分运行完毕后，Driver同时负责将SparkContext关闭，通常用SparkContext代表Driver. Executor 某个Application运行在Worker节点上的一个进程，该进程负责运行某些Task,并且负责将数据存在内存或者磁盘上。每个Application都有各自独立的一批Executor.在spark on Yarnm模式下，名为CoarseGrainedExecutor Backend进程有且只有一个executor,它负责将task包装秤taskRunner，并从线程池中抽取出一个空闲线程进行Task.这样每个CoarseGr...

2015-10-09

697

1. zookeeper 配置 cp app/ochadoop-och3.0.0-SNAPSHOT/zookeeper-3.4.5-cdh5.0.0-beta-2-och3.0.0-SNAPSHOT/conf/zoo_sample.cfg app/ochadoop-och3.0.0-SNAPSHOT/zookeeper-3.4.5-cdh5.0.0-beta-2-och3.0.0-SNAPSHOT/conf/zoo.cfg vim app/ochadoop-och3.0.0-SNAPSHOT/zookeeper-3.4.5-cdh5.0.0-beta-2-och3.0.0-SNAPSHOT/conf/zoo.cfg dataDir=/home/cdh5/tmp/zookeeper clientPort=2183 server.1=ocdata09:2888:3888 mkdir -p /home/cdh5/tmp/zookeeper vim /home/cdh5/tmp/zookeeper/myid echo "1" > /home/cdh5/tmp/zookeeper/myi...

2015-10-09

884

资源下载

更多资源

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。