您现在的位置是：首页 > 文章详情

Spark+Zookeeper搭建高可用Spark集群

日期：2020-03-02点击：1251收藏

Spark三种分布式部署方式比较

目前Apache Spark支持三种分布式部署方式，分别是standalone、spark on mesos和 spark on YARN，详情参考。

Spark standalone模式分布式部署

环境介绍

主机名	应用
tvm11	zookeeper
tvm12	zookeeper
tvm13	zookeeper、spark（master）、spark（slave）、Scala
tvm14	spark（backup）、spark（slave）、Scala
tvm15	spark（slave）、Scala

说明

依赖scala：

Note that support for Java 7, Python 2.6 and old Hadoop versions before 2.6.5 were removed as of Spark 2.2.0. Support for Scala 2.10 was removed as of 2.3.0. Support for Scala 2.11 is deprecated as of Spark 2.4.1 and will be removed in Spark 3.0.
zookeeper： Master结点存在单点故障，所以要借助zookeeper，至少启动两台Master结点来实现高可用，配置方案比较简单。

安装scala

由上面的说明可知，spark对scala版本依赖较为严格，spark-2.4.5依赖scala-2.12.x，所以首先要安装scala-2.12.x，在此选用scala-2.12.10。使用二进制安装：

下载安装包
解压即用。

$ wget https://downloads.lightbend.com/scala/2.12.10/scala-2.12.10.tgz $ tar zxvf scala-2.12.10.tgz -C /path/to/scala_install_dir

如果系统环境也要使用相同版本的scala，可以将其加入到用户环境变量(.bashrc或.bash_profile)。

安装spark

打通三台spark机器的work用户ssh通道；
现在安装包到master机器：tvm13；
下载地址
注意提示信息。

配置spark

spark服务配置文件主要有两个：spark-env.sh和slaves。

spark-evn.sh：配置spark运行相关环境变量
slaves：指定worker服务器

配置spark-env.sh：cp spark-env.sh.template spark-env.sh

export JAVA_HOME=/data/template/j/java/jdk1.8.0_201 export SCALA_HOME=/data/template/s/scala/scala-2.12.10 export SPARK_WORKER_MEMORY=2048m export SPARK_WORKER_CORES=2 export SPARK_WORKER_INSTANCES=2 export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=tvm11:2181,tvm12:2181,tvm13:2181 -Dspark.deploy.zookeeper.dir=/data/template/s/spark" # 关于 SPARK_DAEMON_JAVA_OPTS 参数含义： # -Dspark.deploy.recoverMode=ZOOKEEPER #代表发生故障使用zookeeper服务 # -Dspark.depoly.zookeeper.url=master.hadoop,slave1.hadoop,slave1.hadoop #主机名的名字 # -Dspark.deploy.zookeeper.dir=/spark #spark要在zookeeper上写数据时的保存目录 # 其他参数含义：https://blog.csdn.net/u010199356/article/details/89056304

配置slaves：cp slaves.template slaves

# A Spark Worker will be started on each of the machines listed below. tvm13 tvm14 tvm15

配置系统环境变量

编辑 ~/.bashrc ：

export SPARK_HOME=/data/template/s/spark/spark-2.4.5-bin-hadoop2.7 export PATH=$SPARK_HOME/bin/:$PATH

分发

以上配置完成后，将 /path/to/spark-2.4.5-bin-hadoop2.7 分发至各个slave节点，并配置各个节点的环境变量。

启动

先在master节点启动所有服务：./sbin/start-all.sh
然后在backup节点单独启动master服务：./sbin/start-master.sh

查看状态

启动完成后到web去查看：

master（8081端口）：Status: ALIVE
backup（8080端口）：Status: STANDBY

完成！

原文链接：https://my.oschina.net/adailinux/blog/3185242

关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有，本站原创内容转载请注明来源。

Java分享

Spark+Zookeeper搭建高可用Spark集群

Spark三种分布式部署方式比较

Spark standalone模式分布式部署

环境介绍

说明

安装scala

安装spark

配置spark

配置系统环境变量

分发

启动

查看状态

go mod 错误"malformed module path"新发现

HybridDB for MySQL数据库的3大应用场景

相关文章

文章评论

文章二维码

点击排行

推荐阅读

最新文章