世界杯项目案例:HDFS分布式文件系统
项目案例:HDFS分布式文件系统
Hadoop的简介:
Hadoop是apache软件基金会的开源分布式计算平台hadoop集群包括两种角色Mater和Slave。一个HDFS集群由一个运行于Master上的NameNode和若干个运行于Slave节点的DataNode组成。NameNode负责管理文件系统命名空间和客户端对文件系统的访问操作;DataNode管理存储的数据。文件以块形式在DataNode中存储,假如一个块大小设置为50MB,块的副本数为3(通过设置块的副本数来达到冗余效果,防止单个DataNode磁盘故障后数据丢失),一个40MB的文件将被存储在一个块中,然后将相同的3个块存储在3个DataNode中实现冗余。大文件将被切成小块存储。
本实验的目的:
搭建hadoop的HDFS,通过DataNode节点的添加与删除实现HDFS空间动态增加与减少,以及HDFS文件系统的基本管理。
需要挂载hadoop光盘 hadoop.iso
将文件复制到脚本里的指定路径
脚本解释
安装完成,重启生效
验证
其他主机操作类似,需修改脚本的IP地址和主机名
slave-1配置
验证
slave-3配置
验证
slave-3配置
验证
在master上配置SSH密钥对要求master免密码登录各slave,用于开启相应服务。
Master无密码连接slave,先切换hadoop用户,用ssh-keygen按照默认配置直接按Enter键生成密钥对
通过ssh-copy-id将公钥复制至3个slave主机中,复制过程需要输入slave主机的hadoop用户密码,作用是master远程启动slave。
确定hadoop用户对文件的属主和属组权限
配置hadoop
复制文件,并给权限
如果是手动修改需要修改以下地方
由master通过SSH安全通道把刚才配置的6个文件复制给每个slave
slave需要对文件有755权限
初始化master
检查新生成的目录
启动hadoop群集(开机hadoop的冗余功能)
启停hadoopde的管理命令位于@HADOOP_HOME/sbin下,以start-*或stop-*开头;单独启动HDFS分布式文件系统可使用start-dfs.sh,也可以使用以下命令启动整个hadoop集群。
通过jps查看各节点上的进程是否正常
验证访问
hadoop基本命令
使用“hadoopfs”命令可以结合普通的文件管理命令实现很多操作,如查看、修改权限、统计、获取帮助、创建、删除、上传下载文件等,更多的用法可使用“hadoop fs -help”或“hadoop fs -usage”命令查看。
查看节点状态
HDFS高级命令
开机安全模式
将本地文件复制到HDFS上
将HDFS上的文件复制到本地
修改属组
修改权限
修改所有者
统计显示目录中文件大小
合并文件
为HDFS集群添加节点
slave4节点安装jdk与hadoop,配置环境变量
复制hosts文件到每台服务器
配置ssh无密码连接
在master上修改hadoop后,复制到其他节点
新节点上启动并平衡节点以及存储的数据
查看集群信息
删除DataNode节点
添加要删除的节点
刷新配置
查看集群信息
hadoop集群搭建完成!
总结:需要懂得原理加强自身不断完善自己!
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
卸载CDH5.10.0
集群中每个节点都要执行: 停止服务 service cloudera-scm-server stop servicecloudera-scm-agent stop 卸载安装包 yum remove -y cloudera* yum clean all 或者: for f in `rpm -qa | grep cloudera`; do rpm -e ${f} ; done #kill相关hadoop组件进程 for u in cloudera-scm flume hadoop hdfs hbase hive httpfs hue impala llama mapred oozie solr spark sqoop sqoop2 yarn zookeeper; do sudo kill $(ps -u $u -o pid=); done #干掉监督者supervisor进程 kill -9 $(pgrep -f supervisord) 卸载/var/run/cloudera-scm-agent/process umount cm_processes 删除文件 rm -rf /etc/c...
- 下一篇
带你玩转 Big Data
Big Data(大数据)技术简析 Big Data是近来的一个技术热点,但从名字就能判断它并不是什么新词。毕竟,大是一个相对概念。历史上,数据库、数据仓库、数据集市等信息管理领域的技术,很大程度上也是为了解决大规模数据的问题。被誉为数据仓库之父的Bill Inmon早在20世纪90年代就经常将Big Data挂在嘴边了。 然而,Big Data作为一个专有名词成为热点,主要应归功于近年来互联网、云计算、移动和物联网的迅猛发展。无所不在的移动设备、RFID、无线传感器每分每秒都在产生数据,数以亿计用户的互联网服务时时刻刻在产生巨量的交互……要处理的数据量实在是太大、增长太快了,而业务需求和竞争压力对数据处理的实时性、有效性又提出了更高要求,传统的常规技术手段根本无法应付。 在这种情况下,技术人员纷纷研发和采用了一批新技术,主要包括分布式缓存、基于MPP的分布式数据库、分布式文件系统、各种NoSQL分布式存储方案等。 10年前,Eric Brewer提出著名的CAP定理,指出:一个分布式系统不可能满足一致性、可用性和分区容忍性这三个需求,最多只能同时满足两个。系统的关注点不同,采用的策略...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS6,CentOS7官方镜像安装Oracle11G
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- CentOS关闭SELinux安全模块
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- Hadoop3单机部署,实现最简伪集群
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长