hadoop分布式安装
分布式安装(至少三台主机):
环境所需软件:
CentOS7
hadoop-2.7.3.tar.gz
jdk-8u102-linux-x64.tar.gz
安装前准备工作:
- 修改 /etc/hosts 文件
vim /etc/hosts
内容:
192.168.10.11 bigdata1
192.168.10.12 bigdata2
192.168.10.13 bigdata3 -
配置免密钥登陆
cd
ssh-keygen -t rsa
一直回车,直到结束ssh-copy-id .ssh/id_rsa.pub bigdata1 ssh-copy-id .ssh/id_rsa.pub bigdata2 ssh-copy-id .ssh/id_rsa.pub bigdata3
-
同步时间
通过设置计划任务实现各主机间的时间同步
vim /etc/crontab
0 0 1 root ntpdate -s time.windows.com或者部署一个时间服务器实现同步,这里就不详细讲解了 (*)hdfs-site.xml <!--数据块的冗余度,默认是3--> <property> <name>dfs.replication</name> <value>2</value> </property> <!--是否开启HDFS的权限检查,默认:true--> <!-- <property> <name>dfs.permissions</name> <value>false</value> </property> --> core-site.xml <!--NameNode的地址--> <property> <name>fs.defaultFS</name> <value>hdfs://bigdata1:9000</value> </property> <!--HDFS数据保存的目录,默认是Linux的tmp目录--> <property> <name>hadoop.tmp.dir</name> <value>/root/training/hadoop-2.7.3/tmp</value> </property> mapred-site.xml <!--MR程序运行的容器是Yarn--> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> yarn-site.xml <!--ResourceManager的地址--> <property> <name>yarn.resourcemanager.hostname</name> <value>bigdata1</value> </property> <!--NodeManager运行MR任务的方式--> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> 对NameNode进行格式化: hdfs namenode -format 日志:Storage directory /root/training/hadoop-2.7.3/tmp/dfs/name has been successfully formatted. scp -r /root/training/hadoop-2.7.3 bigdata2:/root/training/hadoop-2.7.3 scp -r /root/training/hadoop-2.7.3 bigdata3:/root/training/hadoop-2.7.3 启动:start-all.sh = start-dfs.sh + start-yarn.sh 验证 (*)命令行:hdfs dfsadmin -report (*)网页:HDFS:http://192.168.157.12:50070/ Yarn:http://192.168.157.12:8088 (*)Demo:测试MapReduce程序 example: /root/training/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /input/data.txt /output/wc1204

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Hive部署
什么是 Hive Hive 是一个翻译器,它可以将SQL语句翻译成一个 MapReduce 程序 常见的数据分析引擎: Hive, Pig, Impala, Spark SQL Hive 是一个基于Hadoop 之上的数据分析引擎(数据仓库) Hives HDFS 表 --------> 目录 数据 --------> 文件 分区 --------> 目录 环境部署: 部署前准备: 环境变量:vi ~/.bash_profile HIVE_HOME=/root/training/apache-hive-2.3.0-bin export HIVE_HOME PATH=$HIVE_HOME/bin:$PATH export PATH 嵌入式部署: (1)使用Hive自带的Derby数据库来存储元信息 (2)Hive只支持一个连接 创建 conf/hive-site.xml <?xml version="1.0" encoding="UTF-8" standalone="no"...
- 下一篇
HBase讲解及部署
HBase 是一个 NoSQL 数据库 什么是 NoSQL 数据库? 基于 Key-value 来保存数据 NoSQL 数据库不支持事物 常见的 NoSQL 数据库: HBase: 基于 HDFS ,面向列的数据库 表 ----> 目录 数据 ----> 文件 Redis: 基于内存的一个 NoSQL 数据库, 支持持久化(RDB,AOF) 前身: MemCached 不支持持久化 MongoDB: 文档型的 NoSQL 数据库(BSON文档,JSON的二进制) Cassandra: 面向列的 NoSQL 数据库 HBase 的表结构 article(表) rowkey 内容 作者 评论 标题 正文 用户 内容 文章1 先有鸡还是先有蛋 …… 某人 喷手 鸡都不造你是肿么造的 文章…… …… …… …… …… …… 体系结构 HBase 环境部署: 本地模式 ---1台主机: 不需要 HDFS ,直接把数据存在操作系统上 1. 安装 JAVA 环境,修改环境变量 2. 安装 HBase 伪分...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- Windows10,CentOS7,CentOS8安装Nodejs环境
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS关闭SELinux安全模块
- CentOS7设置SWAP分区,小内存服务器的救世主
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Docker快速安装Oracle11G,搭建oracle11g学习环境