Hadoop伪分布式搭建操作步骤指南-低调大师

Hadoop伪分布式搭建操作步骤指南

2017-10-31 486

一、准备工作

在 /opt/目录下创建文件夹modules，和softwares
- 修改操作权限(切换至root用户下)

chown -R wxt:wxt /opt/

然后切换至普通用户

mkdir softwares
mkdir modules

安装lrzsz (在linux里可代替ftp上传和下载。)

首先安装lrzsz

yum -y install lrzsz

上传文件，执行命令rz，会跳出文件选择窗口，选择好文件，点击确认即可。

rz

下载文件，执行命令sz

sz

二、Hadoop环境部署-JDK部分

1.

上传jdk 至softwares

2.

解压jdk 至modules
- tar -zxvf jdk-7u67-linux-x64.tar.gz -C /opt/modules/

3.

修改环境变量
- 切换至 root 用户修改 vi /etc/profile 文件，配置jdk环境变量

#JAVA_HOME
export JAVA_HOME=/opt/modules/jdk1.7.0_67
export PATH=$PATH:$JAVA_HOME/bin

4.

source /etc/profile 使文件生效
验证是否配置成功
- java -version

java version "1.7.0_09-icedtea"
OpenJDK Runtime Environment (rhel-2.3.4.1.el6_3-x86_64)
OpenJDK 64-Bit Server VM (build 23.2-b09, mixed mode)

jps命令可以查看java 进程
echo $JAVA_HOME

三、Hadoop伪分布式环境部署-Hadoop部分

1.

上传文件hadoop-2.5.0.tar.gz，至softwares
解压文件至modules
- tar -zxvf hadoop-2.5.0.tar.gz -C /opt/modules/

2.

清理Hadoop的目录，将hadoop/share/doc目录删除，节省磁盘空间，通过这个命令查看df -h

3.

修改hadoop/etc/hadoop/hadoop-env.sh文件
修改hadoop/etc/hadoop/mapred-env.sh文件
修改hadoop/etc/hadoop/yarn-env.sh文件
指定Java安装路径
- export JAVA_HOME=/opt/modules/jdk1.7.0_67

4.

注意：
- Hadoop中的四个核心模块对应四个默认配置文件
- HDFS,Hadoop默认的文件系统,是文件系统的访问入口
- Namenode,所在的机器9000端口是早期Hadoop 1.x使用的，现在 Hadoop 2.x使用的是8020端口号用于节点直接内部通信，使用RPC通信机制

5.

修改hadoop/etc/hadoop/core-site.xml文件

<property>
<name>fs.defaultFS</name>
<value>hdfs://bigdata-4:8020</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/modules/hadoop-2.5.0/data/tmp</value>
</property>

6.

注意：
- /tmp表示临时存储目录，系统每次重启会按照脚本预先设置好的删除里面的文件重新自定义系统生成的文件路径，/tmp会被清空，无法保证数据文件安全性。

7.

修改hadoop/etc/hadoop/hdfs-site.xml文件
- 指定HDFS文件存储的副本数个数，默认是3个，这里是单台机器就设置为1，这个数字要小于datanode的节点数。

<property>
<name>dfs.replication</name>
<value>1</value>
</property>

8.

修改hadoop/etc/hadoop/slaves文件
- 指定从节点的机器位置，添加主机名即可

bigdata-4

9.

格式化namenode

bin/hdfs namenode -format

10.

启动命令
- sbin/hadoop-daemon.sh start namenode
- sbin/hadoop-daemon.sh start datanode

11.

查看HDFS外部UI界面
- bigdata-04或者IP地址跟上50070端口号，外部通信http dfs.namenode.http-address 50070
- http://bigdata-4:50070 (如果windows本地没有配置hosts,需要配置)
- 如果不能正确打开页面，请检查防火墙是否关闭
  - 切换至root 用户，service iptables status
  - 关闭防火墙 chkconfig iptables off

12.

测试HDFS环境
- 创建文件夹，HDFS中有用户主目录的概念，和Linux一样
- bin/hdfs dfs -mkdir -p wxt_test/iuput

13.

上传文件到HDFS(随便找一个文件上传就行)
- bin/hdfs dfs -put /opt/modules/hadoop-2.5.0/etc/hadoop/core-site.xml wxt_test/input/core-site.xml
- 上传成功，HDFS外部UI界面，会有上传的文件显示

14.

读取HDFS的文件
- bin/hdfs dfs -text /core-site.xml
- 终端会显示上传文件的内容。

15.

下载文件到本地(指定下载到哪里，同时可以重命名成get-site.xml)bin/hdfs dfs -get /core-site.xml /home/wxt/Desktop/get-site.xml然后你会看到这个文件，并且重命名于桌面。

Hadoop 伪分布式搭建至此结束。

原文发布时间为：2017-10-25

本文作者：imxintian

本文来自云栖社区合作伙伴“51CTO”，了解相关信息可以关注。

微信关注我们

原文链接：https://yq.aliyun.com/articles/241490

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

阿里云MaxCompute香港开服将引入更多人工智能服务

9月18日，阿里云宣布大数据计算服务MaxCompute在香港正式开服。通过MaxCompute强大的计算能力，阿里云将为香港市场提供更多的人工智能产品，助力当地企业智能化升级。据了解，MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型，能够更快速解决用户海量数据计算问题，有效降低企业成本、保障数据安全。香港节点部署的为MaxCompute2.0版本。新版本依托全新的SQL 2.0计算引擎带来更高性能运算；支持非结构化数据处理，通过外表与外部数据源关联，提供自定义解析数据格式的编程接口，支持任意数据格式。此外，MaxCompute2.0支持更多的语言功能，为人工智能等热门领域提供海量数据计算支持。 “随着行业需求的不断增长，数据处理与分析依旧是云计算提供商的主要服务内容。”阿里云人工智能科学家闵万里博士表示，“结合我们已有的产品和服务，MaxCompute在香港开服，能够提升我们在当地的服务能力，为我们的客户提供全面的云解决方案，从而满足对安全和可扩展计算服务日益增长的需求。” 今年8月初，澳门政府引入阿里云的“ET城市大脑”构建智能城市；8月底，保利协...

2017-11-01

453

大数据带来了许多新的术语,但一些术语往往不太好理解。以下是人们应该了解的大数据术语列表：以下进行一个简短的回顾，以前曾经介绍了算法，分析，描述性分析，预处理分析，预测分析，批处理，Cassandra，云计算，集群计算，暗数据，数据湖，数据挖掘，数据科学家，分布式文件系统，ETL，Hadoop，内存计算，物联网，机器学习，Mapreduce，NoSQL，R，Spark，流处理，结构化。非结构化数据等25个大数据的术语，现在再了解一下50个大数据术语。 Apache软件基金会(ASF)：提供了许多大数据的开源项目，目前有350多个项目。是专门为支持开源软件项目而办的一个非盈利性组织。在它所支持的Apache项目与子项目中，所发行的软件产品都遵循Apache许可证。 Apache Kafka：以著名的捷克作家命名的Apache Kafka用于构建实时数据流管道和流媒体应用程序。为什么这么受欢迎?因为它能够以容错的方式存储，管理和处理数据流，并且十分快速。鉴于社交网络环境处理数据流，Kafka目前非常受欢迎。 ApacheMahout：Mahout提供了一个用于机器学习和数据挖掘的预制算法库...

2017-11-01

461

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。