centos6.4 32/64位机 hadoop2.2.0集群安装-低调大师

centos6.4 32/64位机 hadoop2.2.0集群安装

2017-06-01 565

1、准备环境

 安装VMware10 ，三台centos6.4 版本，安装在VMware虚拟机下。

1）安装中文输入法：

   1、需要root权限，所以要用root登录 ，或su root

    2、yum install "@Chinese Support"

2）安装ssh或者vsftp

   使用chkconfig --list来查看是否装有vsftpd服务；

   使用yum命令直接安装：  yum install vsftpd 

   查看与管理ftp服务：

        启动ftp服务：service vsftpd start

        查看ftp服务状态：service vsftpd status

        重启ftp服务：service vsftpd restart

        关闭ftp服务：service vsftpd stop

3)jdk安装 

 参考http://my.oschina.net/kt431128/blog/269262

2、修改主机名

  本人安装一个虚拟机，然后通过虚拟机-》管理-》克隆 完成其他两台机器的安装，现在存在的一个问题就是主机名是一样的，这个明显不是自己想要的，所以需要修改其余两台的主机名。

[root@slaver2 sysconfig]# vi /etc/sysconfig/network

    NETWORKING=yes

    HOSTNAME=slaver

3、配置/ect/hosts，三台服务器的配置一样

vi /etc/hosts

192.168.21.128   master

192.168.21.131   slaver

192.168.21.130   slaver2

4、创建用户（使用root用户创建后来发现Browse the filesystem 报错，后来查文档，建议使用新建的用户）

useradd  hadoop 

passwd hadoop

输入密码，确认

5、ssh无密码登录

参考：http://my.oschina.net/kt431128/blog/269266

6、HADOOP的下载和环境的配置

http://mirror.esocc.com/apache/hadoop/common/hadoop-2.2.0/

[   ] hadoop-2.2.0.tar.gz         07-Oct-2013 14:46  104M

hadoop环境变量的配置：

vi/etc/profile

在文件的最下面添加

export HADOOP_HOME=/usr/zkt/hadoop2.2.0/hadoop-2.2.0

export PAHT=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

export HADOOP_LOG_DIR=/usr/zkt/hadoop2.2.0/hadoop-2.2.0/logs

export YARN_LOG_DIR=$HADOOP_LOG_DIR

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"

注：在64位操作系统上需要加入一下红色部分的配置信息

网上看到的另一种解决办法：

在使用./sbin/start-dfs.sh或./sbin/start-all.sh启动时会报出这样如下警告：

Java HotSpot(TM) 64-Bit Server VM warning: You have loaded library /usr/local/hadoop-2.2.0/lib/native/libhadoop.so.1.0.0 which might have disabled stack guard. The VM will try to fix the stack guard now.

....

Java: ssh: Could not resolve hostname Java: Name or service not known

HotSpot(TM): ssh: Could not resolve hostname HotSpot(TM): Name or service not known

64-Bit: ssh: Could not resolve hostname 64-Bit: Name or service not known

....

这个问题的错误原因会发生在64位的操作系统上，原因是从官方下载的hadoop使用的本地库文件(例如lib/native/libhadoop.so.1.0.0)都是基于32位编译的，运行在64位系统上就会出现上述错误。

解决方法之一是在64位系统上重新编译hadoop，另一种方法是在hadoop-env.sh和yarn-env.sh中添加如下两行：

export HADOOP_COMMON_LIB_NATIVE_DIR=${HADOOP_HOME}/lib/native  

export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"

注：/usr/zkt/hadoop2.2.0/hadoop-2.2.0为自定义的下载hadoop文件的解压路径

7、修改hadoop的配置文件hadoop2.2.0/etc/hadoop

1、修改hadoop-env.sh 、yarn-env.sh 确保hadoop运行所需要的java环境

# The java implementation to use.

    export JAVA_HOME=/usr/java/jdk1.7.0_55

2、修改core-site.xml文件  定义文件系统的配置

<configuration>

 <property>  

    <name>fs.default.name</name>  

        <value>hdfs://master:9000/</value>  

 </property>  

 <property>

         <name>hadoop.tmp.dir</name>

         <value>/usr/zkt/hadoop2.2.0/tmp</value>

  </property>  

 </configuration>

3、修改hadfs-site.xml 定义名称节点和数据节点

<configuration>

<property>  

        <name>dfs.datanode.data.dir</name>  

        <value>/usr/zkt/hadoop2.2.0/hdf/data</value>  

        <final>true</final>  

   </property>  

     <property>  

       <name>dfs.namenode.name.dir</name>  

       <value>/usr/zkt/hadoop2.2.0/hdf/name</value>  

       <final>true</final>  

   </property>  

   <property>  

        <name>dfs.replication</name>  

        <value>2</value>  

   </property>

 <property>  

            <name>dfs.permissions</name>  

            <value>false</value>  

    </property> 

</configuration>

4、修改mapred-site.xml Configurations for MapReduce Applications

<property>  

        <name>mapreduce.framework.name</name>  

        <value>yarn</value>  

    </property>  

    <property>  

        <name>mapreduce.jobhistory.address</name>  

        <value>master:10020</value>  

    </property>  

  <property>  

        <name>mapreduce.jobhistory.webapp.address</name>  

        <value>master:19888</value>  

    </property>

5、修改yarn-site.xml文件

 该文件主要用于：

1、Configurations for ResourceManager and NodeManager:

 2、Configurations for ResourceManager:

 3、Configurations for NodeManager:

4、Configurations for History Server (Needs to be moved elsewhere):

<property>  

    <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>  

    <value>org.apache.hadoop.mapred.ShuffleHandler</value>  

</property>  

 <property>  

    <name>yarn.resourcemanager.address</name>  

    <value>master:8032</value>  

</property>  

<property>  

    <name>yarn.resourcemanager.scheduler.address</name>  

    <value>master:8030</value>  

</property>  

<property>  

    <name>yarn.resourcemanager.resource-tracker.address</name>  

    <value>master:8031</value>  

</property>  

<property>  

    <name>yarn.resourcemanager.admin.address</name>  

    <value>master:8033</value>  

</property>  

  <property>  

    <name>yarn.resourcemanager.webapp.address</name>  

    <value>master:8088</value>  

</property>

8、创建第7步配置文件中多出的文件夹

data  tmp  name  log    mkdir -r  /usr/zkt/hadoop2.2.0/hdf/data 等

9、为这些文件夹赋权限比较关键不然文件生成的时候无文件创建、写权限

su - root

chown -R hadoop:hadoop /usr/zkt/hadoop2.2.0 (不明白的可以查看chown命令)

或者切换到hadoop用户下 通过chmod -R 777 data 赋权限

10、将配置好的hadoop分别拷贝到 slaver 和slaver2主机上

scp -r  /usr/zkt/hadoop2.2.0/hadoop-2.2.0    hadoop@slaver:/usr/zkt/hadoop2.2.0/

    scp -r  /usr/zkt/hadoop2.2.0/hadoop-2.2.0    hadoop@slaver2:/usr/zkt/hadoop2.2.0/

11、hadoop namenode的初始化

  如果 hadoop环境变量配置没问题直接使用

hdfs namenode -format

   hadoop command not found 解决办法：

echo $PATH

    发现hadoop的环境变量是：/home/hadoop/bin 而不是我们配置的环境变量，我们需要把hadoop-2.2.0包下的bin、sbin文件夹拷贝到/home/hadoop/下，再次echo $PATH，发现可以了。

12、关闭防火墙三台服务器的防火墙都需要关闭

查看iptables状态：

service iptables status

iptables开机自动启动：

开启： chkconfig iptables on
关闭： chkconfig iptables off

iptables关闭服务：

开启： service iptables start
关闭： service iptables stop

13、启动hadoop

start-all.sh

    关闭hadoop

     stop-all.sh

14、查看启动的节点进程

jps

15、查看启动后的服务信息

master中应该有ResourceManager服务，slave中应该有nodemanager服务

查看集群状态：./bin/hdfs dfsadmin –report

查看文件块组成： ./bin/hdfsfsck / -files -blocks

查看各节点状态: http://master:50070

微信关注我们

原文链接：https://yq.aliyun.com/articles/112283

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

为什么如此难用？Hadoop 的 12 个技术痛点

Hadoop是一个很神奇的创造，但它发展过快而表现出一些瑕疵。我爱大象，大象也爱我。不过这世上没什么是完美的，有的时候，即使是再好的朋友间也会起冲突。就像我和Hadoop之间的存在斗争一样。下面是我列举的12个痛点。 Pig vs. Hive 你在 Pig 里用不了 Hive UDFS。在 Pig 中你必须用 HCatalog 来访问 Hive 表。你在 Hive 里用不了Pig UDFS。在 Hive 中无论是多么小的额外功能，我都不会感觉像写一个 Pig 脚本或者“啊，如果是在 Hive 里我可以轻易地完成”，尤其是当我写 Pig 脚本的时候，当我在写其中之一的时候，我经常想，“要是能跳过这堵墙就好了！”。被迫存储我所有共享库到 HDFS 这是 Hadoop 的复发机制。如果你保存你的 Pig 脚本到 HDFS 上，那么它会自动假设所有的 JAR 文件都会在你那里一样。这种机制在 Oozie 和别的工具上也出现了。这通常无关紧要，但有时，必须存储一个组织的共享库版本就很痛苦了。还有，大多数时候，你安装在不同客户端的相同 JAR，那么为什么要保存两次？这在 Pig 中被修复了。...

2017-06-01

732

自从谷歌 I/O 2017宣布将支持 Kotlin 作为 Android 开发的 First-Class 语言，各种 Kotlin 能否取代 Java 的文章、争论层出不穷。作为一名老 Java 程序员，心态是比较复杂的，虽然类似场面见过不少。早在 2009 年，就有了 Scala 是否是 Java 后继者的争论。 2009年7月 InfoQ 发表的一篇文章：「Roundup: Scala as the long term replacement for Java」，还谈到了 Java 之父 James Gosling 也偏爱 Scala 。（参考下图）尽管 Scala 在业界的口碑不错，还受到不少自命极客的程序猿的拥趸。在 Java 程序员当中，也掀起了一阵学习 Scala 的风潮。但时至今日，取代 Java，还远远谈不上。 Java 从诞生到现在，已有22年的历史。 Java 在业界的霸主地位，虽然这些年一直受到 C/C++ 、Node.js 、GO 、Python 等语言的挑战，但一直稳如泰山。在众多领域的普及率、Java 不是榜首，也是名列前茅。下图是 2017年5...

2017-06-01

635

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。