大数据测试之hadoop单机环境搭建(超级详细版)-低调大师

大数据测试之hadoop单机环境搭建(超级详细版)

2017-11-22 548

Hadoop的运行模式

单机模式是Hadoop的默认模式，在该模式下无需任何守护进程，所有程序都在单个JVM上运行，该模式主要用于开发和调试mapreduce的应用逻辑；

伪分布式模式下，Hadoop守护进程运行在一台机器上，模拟一个小规模的集群。该模式在单机模式的基础上增加了代码调试的功能，允许你检查NameNode，DataNode，Jobtracker，Tasktracker等模拟节点的运行情况；

单机模式和伪分布式模式均用于开发和调试的目的，真实Hadoop集群的运行采用的是完全分布式模式

单机模式安装步骤

一个干净的linux基础环境（重要，这个环境如果有问题后续就全是问题了）

为了方便大家我已经安装好了一个，大家只需下载导入到vm里即可使用。

下载地址：关注公众号【测试帮日记】对话框里回复“linux”或者加入QQ群522720170。

链接：https://pan.baidu.com/s/1qXRjaK8 密码：xjfk

关闭防火墙（适用于centos7，低版本不适用）

分别执行如下两条命令：

systemctl stop firewalld.service

systemctl disable firewalld.service

修改host name

vi /etc/hosts

然后把自己虚机的名字追加到两行的末尾，如果用的是我们提供的虚机，名字就是linux，追加之后的效果如图

重启网络：/etc/rc.d/init.d/network restart

设置无密码登录（用于hadoop启动）

cd ~ #进入当前用户的目录

mkdir -p /root/.ssh #我们用的root用户

cd ~/.ssh/

ssh-keygen -t rsa #如有提示，直接按回车 cat id_rsa.pub >> authorized_keys # 加入授权

安装jdk1.8并配置环境变量

tar解压

cp解压后的包到/usr/lib/java/（如果没有java目录就创建一下）

vi /etc/profile，末尾添加如下内容：

export JAVA_HOME=/usr/lib/java/jdk1.8.0_11

export JRE_HOME=/usr/lib/java/jdk1.8.0_11/jre

export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH

export CLASSPATH=$CLASSPATH:.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib

执行source /etc/profile使得环境变量生效

验证是否成功，如下图

安装hadoop2.7.4

tar解压

cp解压后的包到/usr/lib/hadoop/（如果没有hadoop目录就创建一下）

设置hadoop-env.sh

vi /usr/lib/hadoop/hadoop-2.7.4/etc/hadoop/hadoop-env.sh

找到# The java implementation to use.这句话，在下面添加如下内容：

#export JAVA_HOME=${JAVA_HOME}

export JAVA_HOME=/usr/lib/java/jdk1.8.0_11

export HADOOP_HOME=/usr/lib/hadoop/hadoop-2.7.4

export PATH=$PATH:/usr/lib/hadoop/hadoop-2.7.4/bin

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

执行source /usr/lib/hadoop/hadoop-2.7.4/etc/hadoop/hadoop-env.sh，使得环境变量生效

验证是否成功，如下图

配置相关的xml文件

vi /usr/lib/hadoop/hadoop-2.7.4/etc/hadoop/core-site.xml（hadoop全局配置）

内容如下：

<name>fs.defaultFS</name>

</property>

</configuration>

vi /usr/lib/hadoop/hadoop-2.7.4/etc/hadoop/hdfs-site.xml（hdfs配置）

内容如下：

<name>dfs.replication</name>

</property>

</configuration>

cd /usr/lib/hadoop/hadoop-2.7.4/etc/hadoop

cp mapred-site.xml.template mapred-site.xml

vi mapred-site.xml（MapReduce的配置）

内容如下：

<name>mapreduce.framework.name</name>

</property>

</configuration>

vi yarn-site.xml（yarn配置）

内容如下：

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>

格式化hdfs文件系统

初次运行hadoop时一定要有该操作，命令如下：

/usr/lib/hadoop/hadoop-2.7.4/bin/hadoop namenode -format

执行期间可能需要确认是否继续，如果有，就输入y回车即可

当你看到如下的内容时证明成功了

如果看到的是exiting with status 1，那么请运行如下命令，之后在进行hdfs的格式化

mkdir -pv /tmp/hadoop-root/dfs/name

启动hadoop（hdfs和yarn）

sh /usr/lib/hadoop/hadoop-2.7.4/sbin/start-all.sh

sh /usr/lib/hadoop/hadoop-2.7.4/sbin/stop-all.sh #停止

如果没有报错说明就成功了

使用jps命令查看进程，如果出现下面的内容就说明确定以及肯定成功啦

PS：如果修改了上面的xml文件需要重启服务哦

使用web查看Hadoop运行状态

http://你的服务器ip地址:50070/

使用web查看集群状态

http://你的服务器IP地址:8088

可能会遇到的问题

如果你多次进行了hdfs的格式化操作，可能会无法启动datanode，原因是id不一致，一般的解决方法为将namenode clusterID和datanode clusterID改成一样的就行了。修改的文件为/tmp/hadoop-root/dfs/下的name or data文件下的VERSION里的内容

本文转自小强测试帮 51CTO博客，原文链接：http://blog.51cto.com/xqtesting/2066724，如需转载请自行联系原作者

微信关注我们

原文链接：https://yq.aliyun.com/articles/486301

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

搭建部署Hadoop 之Yarn

Yarn集群资源管理系统 Yarn 角色及概念 •Yarn 是 Hadoop 的一个通用的资源管理系统 • Yarn 角色 – Resourcemanager – Nodemanager – ApplicationMaster – Container – Client • ResourceManager – 处理客户端请求 – 启动 / 监控 ApplicationMaster – 监控 NodeManager – 资源分配与调度 • NodeManager – 单个节点上的资源管理 – 处理来自 ResourceManager 的命令 – 处理来自 ApplicationMaster 的命令 • Container – 对任务运行行环境的抽象,封装了 CPU 、内存等 – 多维资源以及环境变量、启动命令等任务运行相关的信息资源分配与调度 • ApplicationMaster – 数据切分 – 为应用程序申请资源,并分配给内部任务 – 任务监控与容错 • Client – 用户与 YARN 交互的客户端程序 – 提交应用程序、监控应用程序状态,杀死应用程序等 Yarn 结构 • YA...

2017-11-22

668

Spark SQL是Apache Spark最广泛使用的一个组件，它提供了非常友好的接口来分布式处理结构化数据，在很多应用领域都有成功的生产实践，但是在超大规模集群和数据集上，Spark SQL仍然遇到不少易用性和可扩展性的挑战。为了应对这些挑战，英特尔大数据技术团队和百度大数据基础架构部工程师在Spark 社区版本的基础上，改进并实现了自适应执行引擎。本文首先讨论Spark SQL在大规模数据集上遇到的挑战，然后介绍自适应执行的背景和基本架构，以及自适应执行如何应对Spark SQL这些问题，最后我们将比较自适应执行和现有的社区版本Spark SQL在100 TB 规模TPC-DS基准测试碰到的挑战和性能差异，以及自适应执行在Baidu Big SQL平台的使用情况。挑战1：关于shuffle partition数在Spark SQL中， shufflepartition数可以通过参数spark.sql.shuffle.partition来设置，默认值是200。这个参数决定了SQL作业每个reduce阶段任务数量，对整个查询性能有很大影响。假设一个查询运行前申请了E个Execut...

2017-11-23

583

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。