mac或linux下安装hadoop-2.8流程-低调大师

mac或linux下安装hadoop-2.8流程

2017-11-11 648

mac上安装hadoop

1,mac下的java

ll /usr/bin |grep'java'

默认:

/System/Library/Frameworks/JavaVM.framework/Versions/Current/Commands/java

具体的安装路径:

/Library/Java/JavaVirtualMachines/下面，

JAVA_HOME是/Library/Java/JavaVirtualMachines/jdk1.7.0_75/Contents/Home。

2,mac下的ssh

首先测试ssh localhost，

若不成功,看是否启动允许remotelogin,再尝试如果失败则继续下面的

ssh-keygen -t dsa-P '' -f ~/.ssh/id_dsa

ssh-keygen表示生成秘钥；

-t表示秘钥类型；-P用于提供密语；-f指定生成的秘钥文件。

这个命令在”~/.ssh/“文件夹下创建两个文件id_dsa和id_dsa.pub，是ssh的一对儿私钥和公钥。

接下来，将公钥追加到授权的key中去，输入：

cat~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

再次尝试

ssh localhost

若无法打开,解决方法如下：

进入Mac的系统偏好设置 –> 共享–> 勾选remote login，并设置allow access for all users。

3,下载镜像,mirror,选择某一个tar.gz

http://mirror.bit.edu.cn/apache/hadoop/common/

4,设置环境变量

vi ~/.bash_profile 或者/etc/profile中

exportJAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.7.0_75/Contents/Home

exportJRE_HOME=$JAVA_HOME/jre

exportHADOOP_HOME=/Users/xiaolong.zhao/ittools/hadoop

#是防止出现：Warning:$HADOOP_HOME is deprecated的警告错误。

exportHADOOP_HOME_WARN_SUPPRESS=1

exportPATH=$JAVA_HOME/bin:$JRE_HOME/bin: $ HADOOP_HOME /sbin:$HADOOP_HOME/bin:$PATH

注意:linux与mac的安装，唯一区别就是mac下会有默认的jdk路径的,以及ssh配置的

5,配置hadoop-env.sh

在/Users/xiaolong.zhao/ittools/hadoop/etc/hadoop目录下，找到hadoop-env.sh，打开编辑进行如下设置：

export JAVA_HOME=${JAVA_HOME}（去掉注释）

export HADOOP_HEAPSIZE=2000（去掉注释）

export HADOOP_OPTS=”-Djava.security.krb5.realm=OX.AC.UK-Djava.security.krb5.kdc=kdc0.ox.ac.uk:kdc1.ox.ac.uk”（去掉注释）

6, 4个核心文件配置

6.1.配置core-site.xml——(defaultFS)指定了NameNode的主机名与端口

 
        <?
        xmlversion
        =
        "1.0" 
        encoding
        =
        "UTF-8"
        ?>   
       
        <
        configuration
        > 
       
        <!-- fs.defaultFS - 这是一个描述集群中NameNode结点的URI(包括协议、主机名称、端口号)，集群里面的每一台机器都需要知道NameNode的地址。 
       
        DataNode结点会先在NameNode上注册，这样它们的数据才可以被使用。独立的客户端程序通过这个URI跟DataNode交互，以取得文件的块列表。--> 
       
        <
        property
        >   
       
        <
        name
        >fs.defaultFS</
        name
        >  
       
        <
        value
        >hdfs://localhost:8000</
        value
        >   
       
        </
        property
        >   
       
        <!-- hadoop.tmp.dir 是hadoop文件系统依赖的基础配置，很多路径都依赖它。 
       
        如果hdfs-site.xml中不配置namenode和datanode的存放位置，默认就放在这个路径中--> 
       
        <
        property
        >   
       
        <
        name
        >hadoop.tmp.dir</
        name
        >  
       
        <
        value
        >/Users/time/Documents/hadoop-2.7.3/tmp</
        value
        >   
       
        <
        description
        >A base for othertemporary directories.</
        description
        >  
       
        </
        property
        >  
       
        </
        configuration
        >

6.2. 配置hdfs-site.xml——指定了HDFS的默认参数副本数

 
        <?
        xmlversion
        =
        "1.0" 
        encoding
        =
        "UTF-8"
        ?>   
       
        <
        configuration
        >   
       
        <!-- dfs.replication -它决定着 系统里面的文件块的数据备份个数。对于一个实际的应用，它应该被设为3。 
       
        少于三个的备份，可能会影响到数据的可靠性--> 
       
        <
        property
        > 
       
        <
        name
        >dfs.replication</
        name
        > 
       
        <
        value
        >1</
        value
        > 
       
        </
        property
        > 
       
        <!-- datanaode和namenode的物理存储,如果不设置，它的值hadoop.tmp.dir--> 
       
        <
        property
        > 
       
        <
        name
        >dfs.namenode.name.dir</
        name
        > 
       
        <
        value
        >file:/home/hdfs/name</
        value
        > 
       
        </
        property
        > 
       
        <!-- 可以不设置,namenode的Web 监控 端口,默认是0.0.0.0:50070--> 
       
        <
        property
        > 
       
        <
        name
        >dfs.namenode.http-address</
        name
        > 
       
        <
        value
        >localhost:57000</
        value
        > 
       
        </
        property
        > 
       
        <
        property
        > 
       
        <
        name
        >dfs.datanode.data.dir</
        name
        > 
       
        <
        value
        >file:/home/hdfs/data</
        value
        > 
       
        </
        property
        > 
       
        </
        configuration
        >

注意这里的file

如果配置为: file:/path/a/c,则具体的路径就是: /path/a/c

如果配置为:file://path/a/c,则具体的路径就是: /a/c

6.3 mapred-site.xml配置

 
        <
        property
        >   
       
        <
        name
        >mapreduce.framework.name</
        name
        >   
       
        <
        value
        >yarn</
        value
        >   
       
        </
        property
        >

6.4 Yarn-site.xml 配置

 
        <?
        xmlversion
        =
        "1.0"
        ?>  
       
        <
        configuration
        >  
       
        <!-- resourcemanager --> 
       
        <!-- client visit address --> 
       
        <
        property
        >  
       
        <
        name
        >yarn.resourcemanager.address</
        name
        > 
       
        <
        value
        >localhost:18040</
        value
        >  
       
        </
        property
        >  
       
        <!-- ApplicationMaster visit address--> 
       
        <
        property
        >  
       
        <
        name
        >yarn.resourcemanager.scheduler.address</
        name
        > 
       
        <
        value
        >localhost:18030</
        value
        >  
       
        </
        property
        >  
       
        <!-- NodeManager visit address --> 
       
        <
        property
        >  
       
        <
        name
        >yarn.resourcemanager.resource-tracker.address</
        name
        > 
       
        <
        value
        > localhost:18025</
        value
        >  
       
        </
        property
        >  
       
        <!-- web visit address --> 
       
        <
        property
        >  
       
        <
        name
        >yarn.resourcemanager.webapp.address</
        name
        > 
       
        <
        value
        >localhost:18088</
        value
        >  
       
        </
        property
        >  
       
        <!-- NodeManager support mapreduce service--> 
       
        <
        property
        >  
       
        <
        name
        >yarn.nodemanager.aux-services</
        name
        > 
       
        <
        value
        >mapreduce_shuffle</
        value
        >  
       
        </
        property
        >  
       
        </
        configuration
        >

7, 格式化namenode

hdfs namenode-format

8, 启动hadoop

8.1sbin/start-all.sh

8.2 web测试

8.2.1 namenode-web

http://localhost:50070

8.2.2resourcemanager-web

http://localhost:18088

8.2.3 nodemanager-web

http://localhost:8042

本文转自 zhao_xiao_long 51CTO博客，原文链接:http://blog.51cto.com/computerdragon/1939523

微信关注我们

原文链接：https://yq.aliyun.com/articles/475893

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Hadoop中HDFS和MapReduce节点基本简介

Hadoop提供存储文件和分析文件的机制。 HDFS负责文件的存储，MapReduce负责文件的分析过程。 HDFS主要组件由NameNode和DataNode组成 HDFS文件切分成块（默认大小64M），以块为单位，每个块有多个副本存储在不同的机器上，副本数可在文件生成时指定（默认3） NameNode是主节点，存储文件的元数据如文件名，文件目录结构，文件属性（生成时间,副本数,文件权限），以及每个文件的块列表以及块所在的DataNode等等。它是一个中心服务器，单一节,负责管理文件系统的名字空间(namespace)以及客户端对文件的访问，它维护着每个文件系统树和整棵树内所有的文件和目录，这些信息已两个文件形式永久保存在本地磁盘上：命名控件镜像文件(Fsimage)和编辑日志(Edit log)。文件操作，NameNode负责文件元数据的操作，DataNode负责处理文件内容的读写请求，跟文件内容相关的数据流不经过NameNode，只会询问它跟那个DataNode联系，否则NameNode会成为系统的瓶颈 DataNode在本地文件系统存储文件块数据，以及块数据的校验和。可以创...

2017-11-11

800

Hive是一种构建在Hadoop上的数据仓库，Hive把SQL查询转换为一系列在Hadoop集群中运行的MapReduce作业，是MapReduce更高层次的抽象，不用编写具体的MapReduce方法。Hive将数据组织为表，这就使得HDFS上的数据有了结构，元数据即表的模式，都存储在名为metastore的数据库中。可以在hive的外壳环境中直接使用dfs访问hadoop的文件系统命令。 Hive可以允许用户编写自己定义的函数UDF，来在查询中使用。Hive中有3种UDF： UDF：操作单个数据行，产生单个数据行； UDAF：操作多个数据行，产生一个数据行。 UDTF：操作一个数据行，产生多个数据行一个表作为输出。用户构建的UDF使用过程如下：第一步：继承UDF或者UDAF或者UDTF，实现特定的方法。第二步：将写好的类打包为jar。如hivefirst.jar. 第三步：进入到Hive外壳环境中，利用add jar /home/hadoop/hivefirst.jar.注册该jar文件第四步：为该类起一个别名，cr...

2017-11-11

577

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。