Hadoop hdfs+Spark配置
Hadoop hdfs配置(版本2.7)
hadoop-env.sh
export JAVA_HOME=/home/java/jdk1.8.0_45
hdfs-site.xml
<name>dfs.nameservices</name> <value>guanjian</value>
<name>dfs.ha.namenodes.guanjian</name> <value>nn1,nn2</value>
<name>dfs.namenode.rpc-address.guanjian.nn1</name> <value>host1:8020</value>
<name>dfs.namenode.rpc-address.guanjian.nn2</name> <value>host2:8020</value>
<name>dfs.namenode.http-address.guanjian.nn1</name> <value>host1:50070</value>
<name>dfs.namenode.http-address.guanjian.nn2</name> <value>host2:50070</value>
<name>dfs.namenode.shared.edits.dir</name> <value>qjournal://host1:8485;host2:8485/guanjian</value>
<name>dfs.client.failover.proxy.provider.guanjian</name> <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
<name>dfs.ha.fencing.methods</name> <value>sshfence</value>
<name>dfs.ha.fencing.ssh.private-key-files</name> <value>/root/.ssh/id_dsa</value>
<name>dfs.journalnode.edits.dir</name> <value>/opt/jn/data</value>
<name>dfs.ha.automatic-failover.enabled</name> <value>true</value>
core-site.xml
<name>fs.defaultFS</name> <value>hdfs://guanjian</value>
<name>ha.zookeeper.quorum</name> <value>192.168.5.129:2181</value>
<name>hadoop.tmp.dir</name> <value>/opt/hadoop2</value>
slaves
host1
host2
在/etc/hosts中,host1,host2分别制定为
192.168.5.129 host1
192.168.5.182 host2
手动建两个文件夹
mkdir -p /opt/jn/data
mkdir /opt/hadoop2
在sbin目录下启动journalnode
./hadoop-daemon.sh start journalnode
格式化namenode,在bin目录下
./hdfs namenode -format
同机启动namenode,在/bin
./hadoop-daemon.sh start namenode
在没有格式化的机器上,在/bin
./hdfs namenode -bootstrapStandby
停止所有的dfs,在/sbin
./stop-dfs.sh
格式化zkfc,在/bin
./hdfs zkfc -formatZK
进入zookeeper查看
WatchedEvent state:SyncConnected type:None path:null
[zk: localhost:2181(CONNECTED) 0] ls /
[zookeeper, hadoop-ha, guanjian]
我们可以看到多了一个hadoop-ha节点
一次性启动全部hdfs,在/sbin
./start-dfs.sh
访问192.168.5.182:50070(active)
访问192.168.5.129:50070(standby)
创建目录,在/bin
./hdfs dfs -mkdir -p /usr/file
上传文件,在/bin
./hdfs dfs -put /home/soft/jdk-8u45-linux-x64.tar.gz /usr/file
点击jdk-XXX.tar.gz可以看到它有2个Block(1个Block128M)
Spark配置(版本2.2.0)
spark-env.sh
export JAVA_HOME=/home/java/jdk1.8.0_45
export SPARK_MASTER_HOST=192.168.5.182
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=192.168.5.129:2181 -Dspark.deploy.zookeeper.dir=/spark"
export SPARK_MASTER_PORT=7077
slaves
host1
host2
修改Web端口,/sbin下
start-master.sh
if [ "$SPARK_MASTER_WEBUI_PORT" = "" ]; then
SPARK_MASTER_WEBUI_PORT=8091 //原始端口8080,容易与其他冲突
fi
在其中一台启动,如在host2启动,/sbin下
./start-all.sh
在另外一台host1启动master,/sbin下
./start-master.sh
host2:alive
host1:standby
进入zookeeper查看,多了一个spark节点
WatchedEvent state:SyncConnected type:None path:null
[zk: localhost:2181(CONNECTED) 0] ls /
[zookeeper, spark, hadoop-ha, guanjian]
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
如何在DataWorks V2.0 的 ODPS SQL任务中使用调度参数
在ODPS SQL 中使用调度参数 DataWorks的调度参数分为两种,一种是系统调度参数,另一种是自定义调度参数。 系统调度参数只有两个:bizdate:获取到业务日期,展示格式为:yyyymmdd;cyctime:获取到任务实例的定时时间,格式为:yyyymmddhh24miss; 在SQL节点中使用系统调度参数 以下是在SQL代码中的用法,并设置该任务的定时运行时间为00:23分。 请注意:当代码中使用了调度参数,在界面上直接运行的时候,需要传入一个具体的值,因为直接运行不会经过调度系统,所以参数不会转换,需要输入一个具体的值,该值仅本次运行有效。 当任务提交后,点击冒烟测试运行,选择传入的业务日期时间,点击确认。 运行结果如下:可以看到,时间都已经被替换了,bizdate获取到了我们传入的业务日期,cyctime获取到了任务的定时时间
- 下一篇
HBase Region合并分析
1.概述 HBase中表的基本单位是Region,日常在调用HBase API操作一个表时,交互的数据也会以Region的形式进行呈现。一个表可以有若干个Region,今天笔者就来和大家分享一下Region合并的一些问题和解决方法。 2.内容 在分析合并Region之前,我们先来了解一下Region的体系结构,如下图所示: 从图中可知,能够总结以下知识点: HRegion:一个Region可以包含多个Store; Store:每个Store包含一个Memstore和若干个StoreFile; StoreFile:表数据真实存储的地方,HFile是表数据在HDFS上的文件格式。 如果要查看HFile文件,HBase有提供命令,命令如下: hbase hfile -p -f /hbase/data/default/ip_login/d0d7d881bb802592c09d305e47ae70a5/_d/7ec738167e9f4d4386316e5e702c8d3d 执行输出结果,如下图所示: 2.1 为什么需要合并Region 那为什么需要合并Region呢?这个需要从Region的Sp...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7,CentOS8安装Elasticsearch6.8.6
- Red5直播服务器,属于Java语言的直播服务器
- CentOS关闭SELinux安全模块
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS8编译安装MySQL8.0.19