在Ubuntu环境部署Apache Spark集群
在Ubuntu环境部署Apache Spark集群
作者:chszs,未经博主允许不得转载。经许可的转载需注明作者和博客主页:http://blog.csdn.net/chszs
1、软件环境
本文主要讲述怎样在Ubuntu系统上部署Apache Spark独立集群(Standalone Cluster)的过程。所需的软件如下:
- Ubuntu 15.10 x64
- Apache Spark 1.5.1
2、安装所需的一切
# sudo apt-get install git -y # sudo apt-add-repository ppa:webupd8team/java -y # sudo apt-get update -y # sudo apt-get install oracle-java8-installer -y # sudo apt-get install oracle-java8-set-default # sudo apt-get install maven gradle -y # sudo apt-get install sbt -y # sudo wget http://d3kbcqa49mib13.cloudfront.net/spark-1.5.1-bin-hadoop2.6.tgz # sudo tar -xvf spark*.tgz # sudo chmod 755 spark* # sudo apt-get update # sudo apt-get install -y openjdk-7-jdk # sudo apt-get install -y autoconf libtool # sudo apt-get -y install build-essential python-dev python-boto libcurl4-nss-dev libsasl2-dev maven libapr1-dev libsvn-dev # sudo apt-key adv --keyserver keyserver.ubuntu.com --recv E56151BF DISTRO=$(lsb_release -is | tr '[:upper:]' '[:lower:]') CODENAME=$(lsb_release -cs)
添加到软件仓库:
# echo "deb http://repos.mesosphere.io/${DISTRO} ${CODENAME} main" | \ sudo tee /etc/apt/sources.list.d/mesosphere.list # sudo apt-get -y update # sudo apt-get -y install mesos
为了便于Spark集群未来从独立集群模式升级,还安装了Apache Mesos。
针对Spark独立集群,使用了spark-1.5.1-bin-hadoop2.6
conf/spark-env.sh #!/usr/bin/env bash export SPARK_LOCAL_IP=MYIP
3、启动一个节点
# sbin/start-slave.sh masterIP:7077
可参考文档:
- http://spark.apache.org/docs/latest/running-on-mesos.html
- https://mesosphere.com/downloads/
- https://spark.apache.org/downloads.html
4、安装其它的工具和服务器
1)安装MongoDB 3.0.4版
# sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 7F0CEB10 # echo "deb http://repo.mongodb.org/apt/ubuntu "$(lsb_release -sc)"/mongodb-org/3.0 multiverse" | sudo tee /etc/apt/sources.list.d/mongodb-org-3.0.list # sudo apt-get update # sudo apt-get install -y mongodb-org # sudo apt-get install -y mongodb-org=3.0.4 mongodb-org-server=3.0.4 mongodb-org-shell=3.0.4 mongodb-org-mongos=3.0.4 mongodb-org-tools=3.0.4 # sudo service mongod start # sudo tail -5000 /var/log/mongodb/mongod.log
2)安装PostgreSQL
可参考文档:
https://www.digitalocean.com/community/tutorials/how-to-install-and-use-postgresql-on-ubuntu-14-04
# sudo apt-get update # sudo apt-get install postgresql postgresql-contrib
3)安装Redis
可参考文档:
https://www.digitalocean.com/community/tutorials/how-to-install-and-use-redis
# sudo apt-get install build-essential # sudo apt-get install tcl8.5 # sudo wget http://download.redis.io/releases/redis-stable.tar.gz # sudo tar xzf redis-stable.tar.gz # cd redis-stable # make # make test # sudo make install # cd utils # sudo ./install_server.sh # sudo service redis_6379 start # redis-cli
4)安装Scala 2.11.7版
可参考文档:
- http://blog.prabeeshk.com/blog/2014/10/31/install-apache-spark-on-ubuntu-14-dot-04/
- http://www.scala-lang.org/download/2.11.7.html
执行命令:
# sudo wget http://downloads.typesafe.com/scala/2.11.7/scala-2.11.7.deb # sudo dpkg -i scala-2.11.7.deb
可参考文档:
http://www.scala-sbt.org/0.13/tutorial/Installing-sbt-on-Linux.html
# echo "deb http://dl.bintray.com/sbt/debian /" | sudo tee -a /etc/apt/sources.list.d/sbt.list # sudo apt-get update # sudo apt-get install sbt # sudo apt-get install unzip # curl -s get.gvmtool.net | bash # source "/root/.gvm/bin/gvm-init.sh" # gvm install gradle
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Spark读写Hbase中的数据
def main(args: Array[String]) { val sparkConf = new SparkConf().setMaster("local").setAppName("cocapp").set("spark.kryo.registrator", classOf[HBaseConfiguration].getName) .set("spark.executor.memory", "4g") val sc: SparkContext = new SparkContext(sparkConf) val sqlContext = new HiveContext(sc) val mySQLUrl = "jdbc:mysql://localhost:3306/yangsy?user=root&password=yangsiyi" val rows = sqlContext.jdbc(mySQLUrl, "person") val tableName = "spark" val columnFamily = "cf" //rows.first().getString(1...
- 下一篇
Spark on yarn配置项说明与优化整理
配置于spark-default.conf 1. #spark.yarn.applicationMaster.waitTries 5 用于applicationMaster等待Spark master的次数以及SparkContext初始化尝试的次数 (一般不用设置) 2.spark.yarn.am.waitTime 100s 3.spark.yarn.submit.file.replication 3 应用程序上载到HDFS的复制份数 4.spark.preserve.staging.files false 设置为true,在job结束后,将stage相关的文件保留而不是删除。 (一般无需保留,设置成false) 5.spark.yarn.scheduler.heartbeat.interal-ms 5000 Spark application master给YARN ResourceManager发送心跳的时间间隔(ms) 6.spark.yarn.executor.memoryOverhead 1000 此为vm的开销(根据实际情况调整) 7.spark.shu...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2整合Redis,开启缓存,提高访问速度
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS8编译安装MySQL8.0.19
- MySQL8.0.19开启GTID主从同步CentOS8
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- Red5直播服务器,属于Java语言的直播服务器