世界杯项目案例:HDFS分布式文件系统-低调大师

世界杯项目案例:HDFS分布式文件系统

2019-10-19 957

项目案例：HDFS分布式文件系统

Hadoop的简介：
Hadoop是apache软件基金会的开源分布式计算平台hadoop集群包括两种角色Mater和Slave。一个HDFS集群由一个运行于Master上的NameNode和若干个运行于Slave节点的DataNode组成。NameNode负责管理文件系统命名空间和客户端对文件系统的访问操作；DataNode管理存储的数据。文件以块形式在DataNode中存储，假如一个块大小设置为50MB，块的副本数为3（通过设置块的副本数来达到冗余效果，防止单个DataNode磁盘故障后数据丢失），一个40MB的文件将被存储在一个块中，然后将相同的3个块存储在3个DataNode中实现冗余。大文件将被切成小块存储。

本实验的目的：

搭建hadoop的HDFS，通过DataNode节点的添加与删除实现HDFS空间动态增加与减少，以及HDFS文件系统的基本管理。

需要挂载hadoop光盘 hadoop.iso

将文件复制到脚本里的指定路径

脚本解释

安装完成，重启生效

验证

其他主机操作类似，需修改脚本的IP地址和主机名

slave-1配置

验证

slave-3配置

验证

slave-3配置

验证

在master上配置SSH密钥对要求master免密码登录各slave，用于开启相应服务。

Master无密码连接slave，先切换hadoop用户，用ssh-keygen按照默认配置直接按Enter键生成密钥对

通过ssh-copy-id将公钥复制至3个slave主机中，复制过程需要输入slave主机的hadoop用户密码，作用是master远程启动slave。

确定hadoop用户对文件的属主和属组权限

配置hadoop

复制文件，并给权限

如果是手动修改需要修改以下地方

由master通过SSH安全通道把刚才配置的6个文件复制给每个slave

slave需要对文件有755权限

初始化master

检查新生成的目录

启动hadoop群集（开机hadoop的冗余功能）

启停hadoopde的管理命令位于@HADOOP_HOME/sbin下，以start-*或stop-*开头；单独启动HDFS分布式文件系统可使用start-dfs.sh,也可以使用以下命令启动整个hadoop集群。

通过jps查看各节点上的进程是否正常

验证访问

hadoop基本命令

使用“hadoopfs”命令可以结合普通的文件管理命令实现很多操作，如查看、修改权限、统计、获取帮助、创建、删除、上传下载文件等，更多的用法可使用“hadoop fs -help”或“hadoop fs -usage”命令查看。

查看节点状态

HDFS高级命令

开机安全模式

将本地文件复制到HDFS上

将HDFS上的文件复制到本地

修改属组

修改权限

修改所有者

统计显示目录中文件大小

合并文件

为HDFS集群添加节点

slave4节点安装jdk与hadoop，配置环境变量

复制hosts文件到每台服务器

配置ssh无密码连接

在master上修改hadoop后，复制到其他节点

新节点上启动并平衡节点以及存储的数据

查看集群信息

删除DataNode节点

添加要删除的节点

刷新配置

查看集群信息

hadoop集群搭建完成！

总结：需要懂得原理加强自身不断完善自己！

微信关注我们

原文链接：https://yq.aliyun.com/articles/608265

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

卸载CDH5.10.0

集群中每个节点都要执行：停止服务 service cloudera-scm-server stop servicecloudera-scm-agent stop 卸载安装包 yum remove -y cloudera* yum clean all 或者： for f in `rpm -qa | grep cloudera`; do rpm -e ${f} ; done #kill相关hadoop组件进程 for u in cloudera-scm flume hadoop hdfs hbase hive httpfs hue impala llama mapred oozie solr spark sqoop sqoop2 yarn zookeeper; do sudo kill $(ps -u $u -o pid=); done #干掉监督者supervisor进程 kill -9 $(pgrep -f supervisord) 卸载/var/run/cloudera-scm-agent/process umount cm_processes 删除文件 rm -rf /etc/c...

2019-10-19

774

Big Data（大数据）技术简析 Big Data是近来的一个技术热点，但从名字就能判断它并不是什么新词。毕竟，大是一个相对概念。历史上，数据库、数据仓库、数据集市等信息管理领域的技术，很大程度上也是为了解决大规模数据的问题。被誉为数据仓库之父的Bill Inmon早在20世纪90年代就经常将Big Data挂在嘴边了。然而，Big Data作为一个专有名词成为热点，主要应归功于近年来互联网、云计算、移动和物联网的迅猛发展。无所不在的移动设备、RFID、无线传感器每分每秒都在产生数据，数以亿计用户的互联网服务时时刻刻在产生巨量的交互……要处理的数据量实在是太大、增长太快了，而业务需求和竞争压力对数据处理的实时性、有效性又提出了更高要求，传统的常规技术手段根本无法应付。在这种情况下，技术人员纷纷研发和采用了一批新技术，主要包括分布式缓存、基于MPP的分布式数据库、分布式文件系统、各种NoSQL分布式存储方案等。 10年前，Eric Brewer提出著名的CAP定理，指出：一个分布式系统不可能满足一致性、可用性和分区容忍性这三个需求，最多只能同时满足两个。系统的关注点不同，采用的策略...

2019-10-19

895

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。