搭建Spark集群服务器-低调大师

搭建Spark集群服务器

2019-10-19 753 89

tidb1.0开始支持spark，有个组件tiSpark，不过目前只支持spark2.1版本。所以为了启用tiSpark，还需搭建spark集群。

在官网下载地址http://spark.apache.org/downloads.html上，我找到了with hadoop的版本。如下图：

下载地址：https://d3kbcqa49mib13.cloudfront.net/spark-2.1.1-bin-hadoop2.7.tgz

目前手中有4台资源
决定选用其中三台搭建spark集群，一台master，两台slave
链接如下：

域名

IP

主从关系

tidb1 192.168.122.16 Master

tidb2 192.168.122.18 Slave

tidb3 192.168.122.19 Slave

顺便说一下，centos7的hostname设定和之前版本已经不一样了。现在只需输入以下命令指定

hostnamectl set-hostname name

name就是你需要指定的hostname

将压缩包下载后，分别上传至三台server的/usr/local目录下，并解压

cd /usr/localtar zxvf spark-2.1.1-bin-hadoop2.7.tgz

准备

在搭建集群环境之前，首先要做的事情是让这三台机器可以互相免密登陆

编辑/etc/hosts

编辑三台server的/etc/hosts

编辑后内容如下：

#127.0.0.1 localhost tidb1 localhost4 localhost4.localdomain4#::1 localhost localhost.localdomain localhost6 localhost6.localdomain6#216.176.179.218 mirrorlist.centos.org192.168.122.16 tidb1192.168.122.18 tidb2192.168.122.19 tidb3

注意：第一行一定要注释，我在安装过程中，spark启动后，日志文件报错，就是因为它没有去找我下面指定的ip和域名，而是老是去连接127.0.0.1

然后让它们生效

source /etc/hosts

安装ssh和rsync

可以通过下面命令查看是否已经安装：

rpm -qa|grep openssh
rpm -qa|grep rsync

如果没有安装ssh和rsync，可以通过下面命令进行安装：

yum install ssh
yum install rsync
service sshd restart

配置Master无密码登录所有Salve

tidb1节点的配置操作

以下是在tidb1节点的配置操作。

1）在tidb1节点上生成密码对，在tidb1节点上执行以下命令：

ssh-keygen -t rsa -P ''

生成的密钥对：id_rsa和id_rsa.pub，默认存储在"/root/.ssh"目录下。

2）接着在tidb1节点上做如下配置，把id_rsa.pub追加到授权的key里面去

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

3）修改ssh配置文件"/etc/ssh/sshd_config"的下列内容，将以下内容的注释去掉

# 启用 RSA 认证RSAAuthentication yes
# 启用公钥私钥配对认证方式PubkeyAuthentication yes
# 公钥文件路径（和上面生成的文件同）AuthorizedKeysFile .ssh/authorized_keys

4）重启ssh服务，才能使刚才设置有效。

service sshd restart

5）验证无密码登录本机是否成功

ssh tidb1

6）接下来的就是把公钥复制到所有的Slave机器上。使用下面的命令进行复制公钥：

scp /root/.ssh/id_rsa.pub root@tidb2:/root/scp /root/.ssh/id_rsa.pub root@tidb3:/root/

tidb2节点的配置操作

1）在"/root/"下创建".ssh"文件夹，如果已经存在就不需要创建了

mkdir /root/.ssh

2）将tidb1的公钥追加到tidb2的授权文件"authorized_keys"中去

cat /root/id_rsa.pub >> /root/.ssh/authorized_keys

3）修改ssh配置文件"/etc/ssh/sshd_config"的下列内容，将以下内容的注释去掉

# 启用 RSA 认证RSAAuthentication yes
# 启用公钥私钥配对认证方式PubkeyAuthentication yes
# 公钥文件路径（和上面生成的文件同）AuthorizedKeysFile .ssh/authorized_keys

4）重启ssh服务，才能使刚才设置有效

service sshd restart

5）切换到tidb1使用ssh无密码登录tidb2

ssh tidb2

6）把"/root/"目录下的"id_rsa.pub"文件删除掉

rm –r /root/id_rsa.pub

tidb3节点的配置操作

1）在"/root/"下创建".ssh"文件夹，如果已经存在就不需要创建了

mkdir /root/.ssh

2）将tidb1的公钥追加到tidb3的授权文件"authorized_keys"中去

cat /root/id_rsa.pub >> /root/.ssh/authorized_keys

3）修改ssh配置文件"/etc/ssh/sshd_config"的下列内容，将以下内容的注释去掉

# 启用 RSA 认证RSAAuthentication yes
# 启用公钥私钥配对认证方式PubkeyAuthentication yes
# 公钥文件路径（和上面生成的文件同）AuthorizedKeysFile .ssh/authorized_keys

4）重启ssh服务，才能使刚才设置有效

service sshd restart

5）切换到tidb1使用ssh无密码登录tidb3

ssh tidb3

6）把"/root/"目录下的"id_rsa.pub"文件删除掉

rm –r /root/id_rsa.pub

配置所有Slave无密码登录Master

tidb2节点的配置操作

1）创建tidb2自己的公钥和私钥，并把自己的公钥追加到"authorized_keys"文件中，执行下面命令

ssh-keygen -t rsa -P ''cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys

2）将tidb2节点的公钥"id_rsa.pub"复制到tidb1节点的"/root/"目录下

scp /root/.ssh/id_rsa.pub root@tidb1:/root/

tidb1节点的配置操作

1）将tidb2的公钥追加到tidb1的授权文件"authorized_keys"中去

cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys

2）删除tidb2复制过来的"id_rsa.pub"文件

rm –r /root/id_rsa.pub

配置完成后测试从tidb2到tidb1无密码登录

ssh tidb1

tidb3节点的配置操作

1）创建tidb3自己的公钥和私钥，并把自己的公钥追加到"authorized_keys"文件中，执行下面命令：

ssh-keygen -t rsa -P ''cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys

2）将tidb3节点的公钥"id_rsa.pub"复制到tidb1节点的"/root/"目录下

scp /root/.ssh/id_rsa.pub root@tidb1:/root/

tidb1节点的配置操作。

1）将tidb3的公钥追加到tidb1的授权文件"authorized_keys"中去

cat ~/id_rsa.pub >> ~/.ssh/authorized_keys

2）删除tidb3复制过来的"id_rsa.pub"文件

rm –r /root/id_rsa.pub

配置完成后测试从tidb3到tidb1无密码登录。

ssh tidb1

spark集群搭建

进入到Spark安装目录

cd /usr/local/spark-2.1.1-bin-hadoop2.7

进入conf目录并重命名并修改spark-env.sh.template文件

cd conf/
mv spark-env.sh.template spark-env.sh
vim spark-env.sh

在该配置文件中添加如下配置

export JAVA_HOME=/usr/local/jdk18121export SPARK_MASTER_IP=tidb1export SPARK_MASTER_PORT=7077

保存退出
重命名并修改slaves.template文件

mv slaves.template slaves
vi slaves

在该文件中添加子节点所在的位置（Worker节点）

tidb2
tidb3

保存退出

配置环境变量：

vim /etc/profile#set spark envexport SPARK_HOME=/usr/local/spark-2.1.1-bin-hadoop2.7export PATH=$PATH:$SPARK_HOME/binsource /etc/profile

将配置好的Spark拷贝到其他节点上

cd /usr/localscp -r spark-2.1.1-bin-hadoop2.7 root@tidb2:$PWDscp -r spark-2.1.1-bin-hadoop2.7 root@tidb3:$PWD

Spark集群配置完毕，目前是1个Master，2个Worker，在tidb1上启动Spark集群

/usr/local/spark-2.1.1-bin-hadoop2.7/sbin/start-all.sh

启动后，控制台显示如下

图2.png

在浏览器中访问tidb1:8080端口，可见启动后情况，如下图

图3.png

关闭集群可用如下命令

/usr/local/spark-2.1.1-bin-hadoop2.7/sbin/stop-all.sh

总结

简单介绍一下Spark集群的工作模式
首先启动一个Master（我这里是tidb1）,然后Master和各个Worker（我这里是tidb2和tidb3）进行通信，其中真正干活的是Worker下的Executor。
我们还需要有一个客户端，这个客户端叫做Driver。它首先和Master建立通信，然后Master负责资源分配，接着让Worker启动Executor,最后让Executor和Driver进行通信。

效果图如下：

微信关注我们

原文链接：https://yq.aliyun.com/articles/608168

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

2019-10-19 20:44:52

安装hadoop伪分布式模式(Single Node Cluster)

目的本文档介绍如何去安装单节点hadoop集群，以便你可以的了解和使用hadoop的HDFS和MapReduce. 环境： os: CentOS release 6.5 (Final) ip: 172.16.101.58 user：root hadoop-2.9.0.tar.gz SSH无密码登录配置因为本文档使用root用户安装，所以需要配置好root用户ssh无密码登录本地节点 [root@sht-sgmhadoopdn-01 ~]#ssh-keygen -t rsa [root@sht-sgmhadoopdn-01 .ssh]#cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys [root@sht-sgmhadoopdn-01 ~]# ssh localhost Java安装和配置 [root@sht-sgmhadoopdn-01 ~]# cd /usr/java [root@sht-sgmhadoopdn-01 java]# tar xf jdk-8u111-linux-x64.tar.gz [root@sht-sgm...

659

2019-10-19 20:44:54

Spark 安装与实战

折腾了几天，终于把Spark 集群安装成功了，其实比hadoop要简单很多，由于网上搜索到的博客大部分都还停留在需要依赖mesos的版本，走了不少弯路。 1. 安装 JDK 1.7 yumsearchopenjdk-devel sudoyuminstalljava-1.7.0-openjdk-devel.x86_64 /usr/sbin/alternatives--configjava /usr/sbin/alternatives--configjavac sudovim/etc/profile #addthefollowinglinesattheend exportJAVA_HOME=/usr/lib/jvm/java-1.7.0-openjdk-1.7.0.19.x86_64 exportJRE_HOME=$JAVA_HOME/jre exportPATH=$PATH:$JAVA_HOME/bin exportCLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar #saveandexitvim #makethebash...

686

资源下载

更多资源

优质分享Android(本站安卓app)

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario，低调大师唯一一个Java游戏作品

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Apache Tomcat7、8、9（Java Web服务器）

Tomcat是Apache 软件基金会（Apache Software Foundation）的Jakarta 项目中的一个核心项目，由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定，而且免费，因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可，成为目前比较流行的Web 应用服务器。

Java Development Kit(Java开发工具)

JDK是 Java 语言的软件开发工具包，主要用于移动设备、嵌入式设备上的java应用程序。JDK是整个java开发的核心，它包含了JAVA的运行环境（JVM+Java系统类库）和JAVA工具。