Spark学习之Hadoop安装与测试-低调大师

Spark学习之Hadoop安装与测试

2016-04-12 747

Spark是跑在Hadoop上（依赖YARN和HDFS）的内存计算引擎，内置了多种丰富组件如Spark SQL、Spark Stream等，是大数据分析挖掘的一种技术趋势。本文为学习Spark技术的第一篇日志，主要记录了Hadoop环境的搭建、安装与测试。

资源准备

操作系统：CentOS 7 ；JDK：1.7；Hadoop版本：hadoop-2.6.0.tar.gz（使用编译好的，而非源码）

安装JDK

此类教程网上较多，不再累述。仅仅提一下需要在环境变量中设置JAVA_HOME。

[root@cent128 ~]# vi /etc/bashrc

在此文件末尾追加export JAVA_HOME=/usr。"/usr"根据实际路径修改。最后执行如下命令使设置立即生效。

[root@cent128 ~]# source /etc/bashrc

安装Hadoop

将Hadoop解压到/usr/local/目录下。

[root@cent128 ~]# tar -zxf ~/下载/hadoop-2.6.0.tar.gz -C /usr/local    # 解压到/usr/local中
[root@cent128 ~]# cd /usr/local/
[root@cent128 local]# cd ./hadoop-2.6.0/
[root@cent128 hadoop-2.6.0]# ./bin/hadoop version

Hadoop单机配置（非分布式）

Hadoop 默认模式为非分布式模式，无需进行其他配置即可运行。非分布式即单 Java 进程，方便进行调试。现在我们可以执行例子来感受下 Hadoop 的运行。Hadoop 附带了丰富的例子包括 wordcount、terasort、join、grep 等。

[root@cent128 hadoop-2.6.0]# ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar    # 可以看到所有的例子

运行Hadoop单机配置

在此我们选择运行 grep 例子，我们将 input 文件夹中的所有文件作为输入，筛选当中符合正则表达式 dfs[a-z.]+ 的单词并统计出现的次数，最后输出结果到 output 文件夹中

[root@cent128 hadoop-2.6.0]# mkdir ./input/
[root@cent128 hadoop-2.6.0]# cp ./etc/hadoop/*.xml ./input/
[root@cent128 hadoop-2.6.0]# ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar grep ./input ./output 'dfs[a-z.]+'
[root@cent128 hadoop-2.6.0]# cat ./output/*          # 查看运行结果

Hadoop伪分布式配置

Hadoop 可以在单节点上以伪分布式的方式运行，Hadoop 进程以分离的 Java 进程来运行，节点既作为 NameNode 也作为 DataNode，同时，读取的是 HDFS 中的文件。在设置 Hadoop 伪分布式配置前，我们还需要设置 HADOOP 环境变量，执行如下命令在 /etc/bashrc 中设置，保存后，不要忘记执行source命令使配置生效。

export HADOOP_HOME=/usr/local/hadoop-2.6.0
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_CONF_DIR
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

这些变量在启动 Hadoop 进程时需要用到，不设置的话可能会报错（这些变量也可以通过修改 ./etc/hadoop/hadoop-env.sh 实现）。Hadoop 的配置文件位于 /usr/local/hadoop-2.6.0/etc/hadoop/ 中，伪分布式需要修改2个配置文件 core-site.xml 和 hdfs-site.xml 。Hadoop的配置文件是 xml 格式，每个配置以声明 property 的 name 和 value 的方式来实现。

修改配置文件 core-site.xml ，如下：

<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/usr/local/hadoop-2.6.0/tmp</value>
        <description>Abase for other temporary directories.</description>
    </property>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://Cent128:9000</value>
    </property>
</configuration>

修改配置文件 hdfs-site.xml ，如下：

<configuration>
<property>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/usr/local/hadoop-2.6.0/tmp/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/usr/local/hadoop-2.6.0/tmp/dfs/data</value>
    </property>
</configuration>

配置完成后，执行 NameNode 的格式化。成功的话，会看到 “successfully formatted” 和 “Exitting with status 0” 的提示，若为 “Exitting with status 1” 则是出错。

[root@cent128 hadoop-2.6.0]# ./bin/hdfs namenode -format

接着开启 NaneNode 和 DataNode 守护进程。若出现如下 SSH 的提示 “Are you sure you want to continue connecting”，输入 yes 即可。

[root@cent128 hadoop-2.6.0]# ./sbin/start-dfs.sh

启动完成后，可以通过命令 jps 来判断是否成功启动，若成功启动则会列出如下进程: “NameNode”、”DataNode”和SecondaryNameNode（如果 SecondaryNameNode 没有启动，请运行 sbin/stop-dfs.sh 关闭进程，然后再次尝试启动尝试）。如果没有 NameNode 或 DataNode ，那就是配置不成功，请仔细检查之前步骤，或通过查看启动日志排查原因。

成功启动后，可以访问 Web 界面 http://Cent128:50070 查看 NameNode 和 Datanode 信息，还可以在线查看 HDFS 中的文件。

运行Hadoop伪分布式配置

上面的单机模式，grep 例子读取的是本地数据，伪分布式读取的则是 HDFS 上的数据。

[root@cent128 hadoop-2.6.0]# ./bin/hdfs dfs -mkdir -p /user/root    # 在HDFS文件系统上位root用户创建root文件夹
[root@cent128 hadoop-2.6.0]# ./bin/hdfs dfs -mkdir input
[root@cent128 hadoop-2.6.0]# ./bin/hdfs dfs -put ./etc/hadoop/*.xml input
[root@cent128 hadoop-2.6.0]# ./bin/hdfs dfs -ls input
[root@cent128 hadoop-2.6.0]# ./bin/hadoop jar ./share/hadoop/hadoop-mapreduce-examples-2.6.0.jar grep input output 'dfs[a-z.]+'
[root@cent128 hadoop-2.6.0]# ./bin/hdfs dfs -cat output/* # 查看运行结果

运行 Hadoop 程序时，为了防止覆盖结果，程序指定的输出目录（如 output）不能存在，否则会提示错误，因此运行前需要先删除输出目录。

启动YARN

（伪分布式不启动 YARN 也可以，一般不会影响程序执行）有的读者可能会疑惑，怎么启动 Hadoop 后，见不到书上所说的 JobTracker 和 TaskTracker，这是因为新版的 Hadoop 使用了新的 MapReduce 框架（MapReduce V2，也称为 YARN，Yet Another Resource Negotiator）。YARN 是从 MapReduce 中分离出来的，负责资源管理与任务调度。YARN 运行于 MapReduce 之上，提供了高可用性、高扩展性，YARN 的更多介绍在此不展开，有兴趣的可查阅相关资料。上述通过 ./sbin/start-dfs.sh 启动 Hadoop，仅仅是启动了 MapReduce 环境，我们可以启动 YARN ，让 YARN 来负责资源管理与任务调度。

首先修改配置文件 mapred-site.xml，这边需要先进行重命名，并修改内容。

[root@cent128 hadoop-2.6.0]# mv ./etc/hadoop/mapred-site.xml.template ./etc/hadoop/mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

微信关注我们

原文链接：https://yq.aliyun.com/articles/69689

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

浅谈Storm流式处理框架（转）

Hadoop的高吞吐，海量数据处理的能力使得人们可以方便地处理海量数据。但是，Hadoop的缺点也和它的优点同样鲜明——延迟大，响应缓慢，运维复杂。有需求也就有创造，在Hadoop基本奠定了大数据霸主地位的时候，很多的开源项目都是以弥补Hadoop的实时性为目标而被创造出来。而在这个节骨眼上Storm横空出世了。 Storm带着流式计算的标签华丽丽滴出场了，看看它的一些卖点：分布式系统：可横向拓展,现在的项目不带个分布式特性都不好意思开源。运维简单：Storm的部署的确简单。虽然没有Mongodb的解压即用那么简单，但是它也就是多安装两个依赖库而已。高度容错：模块都是无状态的，随时宕机重启。无数据丢失：Storm创新性提出的ack消息追踪框架和复杂的事务性处理,能够满足很多级别的数据处理需求。不过，越高的数据处理需求，性能下降越严重。多语言：实际上，Storm的多语言更像是临时添加上去似的。因为，你的提交部分还是要使用Java实现。一.Storm简介 Storm是一个免费开源、分布式、高容错的实时计算系统。Storm令持续不断的流计算变得容易，弥补了Had...

2016-04-12

697

HDFS存储系统一、基本概念 1、NameNode HDFS采用Master/Slave架构。namenode就是HDFS的Master架构。主要负责HDFS文件系统的管理工作，具体包括：名称空间(namespace)管理(如打开、关闭、重命名文件和目录、映射关系)、文件block管理。NameNode提供的是始终被动接收服务的server。一个文件被分成一个或多个Bolck，这些Block存储在DataNode集合里，NameNode就负责管理文件Block的所有元数据信息。 Secondary NameNode主要是定时对NameNode的数据snapshots进行备份，这样可尽量降低NameNode崩溃之后导致数据丢失的风险。具体就是从namenode中获得fsimage和edits后把两者重新合并发给NameNode，这样，既能减轻NameNode的负担又能安全得备份，一旦HDFS的Master架构失效，就可以借助Secondary NameNode进行数据恢复。 namenode管理着所有所有文件系统的元数据。这些元数据包括名称空间、访问控制信息、文件和Block的映射信息...

2016-04-13

684

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。