在Docker中从头部署自己的Spark集群-低调大师

在Docker中从头部署自己的Spark集群

2015-06-02 756

由于自己的电脑配置普普通通，在VM虚拟机中搭建的集群规模也就是6个节点左右，再多就会卡的不行
碰巧接触了Docker这种轻量级的容器虚拟化技术，理论上在普通PC机上搭建的集群规模可以达到很高（具体能有多少个也没有实际测试过）

于是就准备在Docker上搭建Spark集群
由于是Docker新手，在操作过程中遇到了不少麻烦

刚开始在网上找的资料都是直接从DockerHub上拉取别人已经建好的镜像使用
问题多多，下载速度慢，下载异常，运行异常，配置异常等等等等。。。
好不容易下载了一个可以用的镜像，但是是一个节点的伪分布式，jdk，hadoop，spark等等的版本也不是我想要的
所以就着手从头开始在Docker中部署Spark

下面进入正题

宿主机为Ubuntu系统（VM上的一个虚拟机），Docker的安装请看：

Docker解析及轻量级PaaS平台演练（一）

安装好Docker之后，先拉取一个官方的基本镜像ubuntu

docker pull ubuntu

我们将在这个基础镜像上运行容器，将这个容器当成一个普通的ubuntu虚拟机来操作部署spark，最后将配置好的容器commit为一个镜像，之后就可以通过这个镜像运行n个节点来完成集群的搭建

下载完ubuntu镜像之后运行

docker images

可以看到该镜像

上图最后一个就是（其他是一些测试时候的镜像）

运行ubuntu容器

docker run -v /home/docker/software/:/software -it ubuntu

在容器中安装ssh

这个镜像中默认是没有ssh的，所以要自行安装

apt-get install ssh

SSH装好了以后，由于我们是Docker容器中运行，所以SSH服务不会自动启动。需要我们在容器启动以后，手动通过 /usr/sbin/sshd 手动打开SSH服务。为了方便，把这个命令加入到 ~/.bashrc 文件中，这样在容器启动的时候就会自动开启ssh服务

vim ~/.bashrc

#加入
/usr/sbin/sshd

#如果在启动容器的时候还是无法启动ssh的话，在/etc/rc.local文件中也加入

vim /etc/rc.local
#加入
/usr/sbin/sshd

（这个镜像自带的vi编辑器部分难用。。。建议使用apt-get install vim 下载vim编辑器）

ssh默认配置root无法登陆
将 /etc/ssh/sshd_config中PermitRootLogin no 改为yes

生成访问密钥

cd ~/

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

cd .ssh

cat id_rsa.pub >> authorized_keys

#开启ssh服务后验证是否可以使用，打印出当前时间
ssh localhost date

安装JDK

可以使用apt-get方式直接下载安装jdk（不推荐，下载速度慢，有可能还会失败）
这里选择从网上下载完jdk-6u45-linux-i586.bin之后
将其传到Ubuntu宿主机中，在运行容器的时候使用-v参数将宿主机上的目录映射到容器中，这样在容器中就可以访问到宿主机中的文件了

将JDK铜鼓FTP上传到宿主机的/home/docker/software目录下
在容器中可以在/software下看到该目录下的文件

#将该文件移动到usr目录下
mkdir /usr/java
mv /software/jdk-6u45-linux-i586.bin /usr/java
#安装JDK
chmod 755 jdk-6u45-linux-i586.bin
./jdk-6u45-linux-i586.bin

如果提示不能安装.bin文件，使用一下命令即可解决（下载时间可能会很久，如果失败可能是网络原因，多试几次）

#
apt-get update
#
apt-get install g++-multilib

配置环境变量

mv jdk-6u45-linux-i586 jdk
#在/etc/profile中配置的环境变量不起作用，要配置在宿主目录下的.bashrc
vim ~/.bashrc

export JAVA_HOME=/usr/java/jdk
export PATH=$PATH:$JAVA_HOME/bin

#保存退出之后验证是否安装成功
java -version

安装Zookeeper

将下载好的zookeeper-3.4.5.tar.gz上传

mv /software/zookeeper-3.4.5.tar.gz ~

tar -zxvf zookeeper-3.4.5.tar.gz

mv zookeeper-3.4.5 zookeeper

cd ~/zookeeper/conf/

cp zoo_sample.cfg zoo.cfg

vim zoo.cfg

#修改：
dataDir=/root/zookeeper/tmp

#在最后添加：
server.1=cloud4:2888:3888
server.2=cloud5:2888:3888
server.3=cloud6:2888:3888

#保存退出，然后创建一个tmp文件夹
mkdir ~/zookeeper/tmp

#再创建一个空文件
touch ~/zookeeper/tmp/myid

#最后向该文件写入ID
echo 1 > ~/zookeeper/tmp/myid

安装Hadoop

将下载好的hadoop-2.2.0-64bit.tar.gz上传

mv /software/hadoop-2.2.0-64bit.tar.gz ~

tar -zxvf hadoop-2.2.0-64bit.tar.gz

mv hadoop-2.2.0 hadoop

cd ~/hadoop/etc/hadoop

vim hadoop-env.sh

#加入java环境变量
export JAVA_HOME=/usr/java/jdk

vim core-site.xml

<property>
<name>fs.defaultFS</name>
<value>hdfs://ns1</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/root/hadoop/tmp</value>
</property>
<property>
<name>ha.zookeeper.quorum</name> 
<value>cloud4:2181,cloud5:2181,cloud6:2181</value>
</property>

vim hdfs-site.xml

<property>
<name>dfs.nameservices</name>
<value>ns1</value>
</property>
<property>
<name>dfs.ha.namenodes.ns1</name>
<value>nn1,nn2</value>
</property>
<property>
<name>dfs.namenode.rpc-address.ns1.nn1</name>
<value>cloud1:9000</value>
</property>
<property>
<name>dfs.namenode.http-address.ns1.nn1</name>
<value>cloud1:50070</value>
</property>
<property>
<name>dfs.namenode.rpc-address.ns1.nn2</name>
<value>cloud2:9000</value>
</property>
<property>
<name>dfs.namenode.http-address.ns1.nn2</name>
<value>cloud2:50070</value>
</property>
<property>
<name>dfs.namenode.shared.edits.dir</name> 
<value>qjournal://cloud4:8485;cloud5:8485;cloud6:8485/ns1</value>
</property>
<property>
<name>dfs.journalnode.edits.dir</name>
<value>/root/hadoop/journal</value>
</property>
<property>
<name>dfs.ha.automatic-failover.enabled</name>
<value>true</value>
</property>
<property>
<name>dfs.client.failover.proxy.provider.ns1</name>
<value>
org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider
</value>
</property>
<property>
<name>dfs.ha.fencing.methods</name>
<value>
sshfence
shell(/bin/true)
</value>
</property>
<property>
<name>dfs.ha.fencing.ssh.private-key-files</name>
<value>/root/.ssh/id_rsa</value>
</property>
<property>
<name>dfs.ha.fencing.ssh.connect-timeout</name>
<value>30000</value>
</property>

mv mapred-site.xml.template mapred-site.xml
vim mapred-site.xml

<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

vim yarn-site.xml

<property>
<name>yarn.resourcemanager.hostname</name>
<value>cloud3</value>
</property>
<property> 
<name>yarn.nodemanager.aux-services</name> 
<value>mapreduce_shuffle</value> 
</property>                   

vim slaves

cloud1
cloud2
cloud3
cloud4
cloud5
cloud6

安装Spark

mv /software/scala-2.10.5.tgz ~ 

tar -zxvf scala-2.10.5.tgz

mv scala-2.10.5 scala

vim ~/.bashrc

export JAVA_HOME=/usr/java/jdk
export HADOOP_HOME=/root/hadoop
export SCALA_HOME=/root/scala      
export SPARK_HOME=/root/spark      
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin

mv /software/spark-1.3.0-bin-hadoop2.3.tgz ~

tar -zxvf spark-1.3.0-bin-hadoop2.3.tgz 

mv spark-1.3.0-bin-hadoop2.3 spark

#修改spark文件slaves 
vim ~/spark/conf/slaves 

cloud1 
cloud2 
cloud3 
cloud4 
cloud5 
cloud6

mv spark-env.sh.template spark-env.sh
vim ~/spark/conf/spark-env.sh 

export SPARK_MASTER_IP=cloud1 
export SPARK_WORKER_MEMORY=128m 
export JAVA_HOME=/usr/java/jdk 
export SCALA_HOME=/root/scala 
export SPARK_HOME=/root/spark 
export HADOOP_CONF_DIR=/root/hadoop/etc/hadoop 
export SPARK_LIBRARY_PATH=$$SPARK_HOME/lib 
export SCALA_LIBRARY_PATH=$SPARK_LIBRARY_PATH 
export SPARK_WORKER_CORES=1 
export SPARK_WORKER_INSTANCES=1 
export SPARK_MASTER_PORT=7077

在宿主机中

docker commit {containerId}
#会返回一个id
docker tag {id} jchubby/spark:1.0

将这个容器commit成一个新的image

然后用这个image运行6个容器，分别是cloud1~cloud6

#-h指定容器运行起来后的hostname
docker run --name cloud1 -h cloud1 -it jchubby/spark:1.0
...
docker run --name cloud6 -h cloud6 -it jchubby/spark:1.0

#在cloud5~cloud6中分别手动修改myid
echo 2 > ~/zookeeper/tmp/myid
echo 3 > ~/zookeeper/tmp/myid

#修改/etc/hosts文件，之后在通过scp传到其他容器中

#启动zookeeper集群（分别在cloud4、cloud5、cloud6上启动zk）
~/zookeeper/bin/zkServer.sh start

#使用status查看是否启动
~/zookeeper/bin/zkServer.sh status

#启动journalnode（在cloud1上启动所有journalnode，注意：是调用的hadoop-daemons.sh这个脚本，注意是复数s的那个脚本）
#运行jps命令检验，cloud4、cloud5、cloud6上多了JournalNode进程
~/hadoop/sbin/hadoop-daemons.sh start journalnode

#格式化HDFS(在bin目录下),在cloud1上执行命令:
~/hadoop/bin/hdfs namenode -format

#格式化ZK(在cloud1上执行即可，在bin目录下)
~/hadoop/bin/hdfs zkfc -formatZK

#启动HDFS(在cloud1上执行)
~/hadoop/sbin/start-dfs.sh

#在cloud3上执行start-yarn.sh
~/hadoop/sbin/start-yarn.sh

#启动spark集群
~/spark/sbin/start-all.sh

启动之后可以在宿主机的浏览器中访问
HDFS：cloud1:50070
YARN：cloud3:8088
SPARK：cloud1:8080
（如果宿主机中的hosts文件没有配置docker容器的主机名和IP地址映射关系的话要换成用IP访问）

#在cloud4/5/6其中一个，将hadoop目录下的journal复制到cloud1
scp -r ~/hadoop/journal cloud1:~/haoop

#将完成所有配置的cloud1 commit成一个镜像
docker commit cloud1

docker tag id jchubby/spark_n

之后直接用这个镜像运行容器，分别启动zookeeper，hadoop，spark即可

微信关注我们

原文链接：https://yq.aliyun.com/articles/667793

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Docker解析及轻量级PaaS平台演练（四）--Fig相关介绍

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/qq1010885678/article/details/46292401 本篇中将会使用开源工具Fig Fig是什么？简单的说就是对Docker的封装，从而方便我们构建应用的运行环境它所做的事情是协调Docker上的各个Container之间的联系，并通过服务发现的方式将它们有机的组合成一个完整的系统 Fig使用Docker自带的link来实现服务发现，Fig会负责管理link的相关信息 Fig通过读取当前目录下的fig.yml文件来创建应用的运行环境在fig.yml中需要定义不同的service 在Fig中service的概念：标识的是一个个独立的组件，例如，Web应用，MySql等都可以定义为一个独立的service，并且service是可以横向扩展的我们可以在service中直接指定image，也可以通过build配置项来运行时创建image 所有的service会被运行为Docker上的一个或多个Container 下图是一个fig.yml文件的内容该fig.yml定...

2015-05-30

807

ecshop数据库操作函数分类：ecshop和dede2013-09-23 14:021716人阅读评论(0)收藏举报本章我们将结合eschop二次开发一些常见的开发例子．来谈谈ecshop的数据库类和方法是如何处理数据库。让我们熟练掌握ecshop数据库的操作． 1:ecshop的数据库类实例子化对象为$db;表的实例化对象为$ecs 2:如何取得ecshop某个表中多行数据．该使用方法getAll() $res =$db -> getAll(); 3:如何取得ecshop某一行的数据．该使用getRow()方法，比如 $row = $db-> getRow(); 4:如何取得某一列的值．该使用方法getCol() $res = $db->getCol(); 5:如何取得指定的位置的几个数据．使用selectLimit() 比如取得从第１０行起的５条数据 $db -> selectLimit($sql , 10,5); 6:修改和插入一个数组．该使用autoExecute()方法，而且必须是一个数组． $db->autoExecute($ecs-&g...

2015-06-09

631

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。