Spark 环境部署-低调大师

Spark 环境部署

2017-11-11 709

==> Spark 集群体系结构

--->

==> Spark安装与部署

Spark 的安装部署有四种模式：Standalone, YARN, Mesos, Amazon EC2, 这里主要讲解Standalone 方式

---> 环境部署准备工作：（此处不作详细讲解）

---- 四台 Linux 主机（虚拟机）

---- 修改主机名

---- 免密码登陆

---- 安装 JDK 环境

---> Spark Standalone 伪分布的部署

 
    
      
        
       
          wget  
         
 
          tar zxf spark
          -
          2.2
          .
          1
          -
          bin
          -
          hadoop2.
          7.tgz 
          -
          C 
          /
          app 
         
 
          cd 
          /
          app
          /
          spark
          -
          2.2
          .
          1
          -
          bin
          -
          hadoop2.
          7
          /
          conf 
         
 
          cp spark
          -
          env.sh.template spark
          -
          env.sh 
         

          cp slaves.template slaves
         
 
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          - 
         
 
          vim spark
          -
          env.sh 
         
 
              
          export JAVA_HOME
          =
          /
          app
          /
          java
          /
          jdk1.
          8.0_102 
         
 
              
          export SPARK_MASTER_HOST
          =
          bigdata0 
         
 
              
          export SPARK_MASTER_PORT
          =
          7077 
         
 
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          -
          - 
         

          vim slaves
         
 
              
          bigdata0 
         
 
      

     
   

---> Spark Standalone 全分布的部署

---- 环境架构：

Master	bigdata1
Worker	bigdata2	bigdata3	bigdata4

---- 主节点部署：

 
          wget http
          :
          //mirrors.hust.edu.cn/apache/spark/spark-2.2.1/spark-2.2.1-bin-hadoop2.7.tgz  
         
          tar zxf spark-
          2.2
          .
          1
          -bin-hadoop
          2.7
          .tgz -C /app 
         
          cd /app/spark-
          2.2
          .
          1
          -bin-hadoop
          2.7
          /conf 
         
          cp spark-env.sh.template spark-env.sh
         
          cp slaves.template slaves
         
          -----------------------------------------------------------------------------------
         
          vim spark-env.sh
         
          export JAVA
          _
          HOME
          =
          /app/java/jdk
          1.8
          .
          0
          _
          102 
         
          export SPARK
          _
          MASTER
          _
          HOST
          =
          bigdata
          0 
         
          export SPARK
          _
          MASTER
          _
          PORT
          =
          7077 
         
          -----------------------------------------------------------------------------------
         
          vim slaves
         
          bigdata
          2 
         
          bigdata
          3 
         
          bigdata
          4

---- 将主节点的安装目录 cp 到其它从节点上即可

 
    
      
        
        
          scp -r spark-
          2.2
          .
          1
          -bin-hadoop
          2.7
          / bigdata
          2
          :
          /app & 
         
 
          scp -r spark-
          2.2
          .
          1
          -bin-hadoop
          2.7
          / bigdata
          3
          :
          /app & 
         
 
          scp -r spark-
          2.2
          .
          1
          -bin-hadoop
          2.7
          / bigdata
          4
          :
          /app & 
         
 
      

     
   

---- 启动

 
          start-all.sh

==> Spark HA 的实现

Spark HA 有两种实现方式：

---> 基于文件系统的单点故障恢复：只有一个主节点、只能用于开发测试

---- 特点：把 Spark 的运行信息入到一个本地的恢复目录，如果Master死掉，恢复 master 的时候从恢复目录上读取之前的信息

---- 配置：在 standalone 的基础上修改 spark-env.sh 文件，文件内容为：

 
    
      
        
       
          vim  spark-env.sh
         
 
              
          export JAVA
          _
          HOME
          =
          /app/java/jdk
          1.8
          .
          0
          _
          102 
         
 
              
          export SPARK
          _
          MASTER
          _
          HOST
          =
          bigdata
          0 
         
 
              
          export SPARK
          _
          MASTER
          _
          PORT
          =
          7077 
         
 
              
          export SPARK
          _
          DAEMON
          _
          JAVA
          _
          OPTS
          =
          "-Dspark.deploy.recoveryMode=FILESYSTEM -Dspark.deploy.recoveryDirectory=/data/spark_recovery" 
         
 
      

     
   

---- 参数讲解：

--- spark.deploy.recoveryMode

=> 此参数默认值为：None ，

=> 基于文件系统的单点故障修复: FILESYSTEM

=> 基于 Zookeeper 实现 Standby 的 Master: ZOOKEEPER

--- spark.deploy.recoveryDirectory 指定恢复目录

---- 测试：bin/spark-shell --master spark://bigdata1:7077

---> 基于 ZooKeeper 实现 Standby 的 Master

---- 特点：

Zookeeper 提供了一个 Leader Election 机制，利用这个机制可以保证虽然集群存在多个 Master，但是只有一个是Active 的，其他的都是 Standby ，当 Active 的 Master 出现故障时，另外的一个 Standby Master 会被选举出来。由于集群的信息包括 Worker, Driver 和 Application 的信息都已经持久化到 Zookeeper ，因此在切换的过程中只会影响新的 Job 的提交，对于正在进行 Job 没有任何的影响

---- 配置：在 standalone 的基础上修改 spark-env.sh 文件，文件内空为：

 
          vim  spark
          -
          env.sh 
         
          export JAVA_HOME
          =
          /
          app
          /
          java
          /
          jdk1.
          8.0_102 
         
          export SPARK_DAEMON_JAVA_OPTS
          =
          "-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=bigdata2:2181,bigdata3:2181,bigdata4:2181 -Dspark.deploy.zookeeper.dir=/spark"

---- 测试：

 
          bigdata
          1
          : 
          sbin/start-all.sh 
         
          bigdata
          2
          : 
          sbin/start-master.sh

本文转自菜鸟的征程 51CTO博客，原文链接:http://blog.51cto.com/songqinglong/2073058

微信关注我们

原文链接：https://yq.aliyun.com/articles/512560

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Spark 简介

==>什么是Spark --->Spark是一个针对大规模数据处理的快速通用引擎 --->Spark是MapReduce的替代方案，而且兼容 HDFS, Hive,可容入Hadoop的生态系统，弥补MapReduce的不足 R --->RDD可简单理解为：一个提供了很多操作接口的数据集合，分布式存储于集群环境中的存储设备中（内存或硬盘），其中包括容错，并行处理等功能 ==> Spark特点 --->快 ----优点：与Mapreduce相比，Spark基于内存运算，运算速度要快100倍，基于硬盘计算，运算速度要快 10倍 ----缺点：没有对内存进行管理，把所有的内存管理都交给应用程序，以弥补MapReduce的不足，容易出现OOM（out of memory）,可使用Java Heap Dump 工具分析Java程序的内存溢出 --->易用 ----Spark支持Java ，Python, Scala的 API ----支持80多种算法 ----支持交互式，可以在shell中使用Spark验证解决问题的方法 --->通用（...

2017-11-12

668

===>环境架构部署规划： bigdata1 NameNode ResourceManager Zookeeper JournalNode failOverController bigdata2 NameNode ResourceManager Zookeeper JournalNode failOverController bigdata3 DataNode NodeManager Zookeeper bigdata4 DataNode NodeManager ===>准备环境：（*）清除之前的配置（*）安装JDK、修改/etc/hosts文件、关闭防火墙、免密码登录 ############################################################################### hdfs-site.xml  <property> <name>dfs.nameservic...

2017-11-12

534

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。