在Ubuntu系统上搭建Hadoop 2.x(2.6.2)-低调大师

在Ubuntu系统上搭建Hadoop 2.x(2.6.2)

2017-11-13 701

前提条件

（1）Ubuntu操作系统（本教程使用的是Ubuntu 14.04）

（2）安装JDK

$ sudo apt-get install openjdk-7-jdk
$ java -version
java version "1.7.0_25"
OpenJDK Runtime Environment (IcedTea 2.3.12) (7u25-2.3.12-4ubuntu3)
OpenJDK 64-Bit Server VM (build 23.7-b01, mixed mode)
$ cd /usr/lib/jvm
$ ln -s java-7-openjdk-amd64 jdk

（3）安装ssh

$ sudo apt-get install openssh-server

添加Hadoop用户组和用户（可选）

$ sudo addgroup hadoop
$ sudo adduser --ingroup hadoop hduser
$ sudo adduser hduser sudo

创建用户之后，使用hduser重新登陆ubuntu

安装SSH证书

$ ssh-keygen -t rsa -P ''
...
Your identification has been saved in /home/hduser/.ssh/id_rsa.
Your public key has been saved in /home/hduser/.ssh/id_rsa.pub.
...
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
$ ssh localhost

下载Hadoop 2.6.2

$ cd ~
$ wget http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.6.2/hadoop-2.6.2.tar.gz
$ sudo tar vxzf hadoop-2.6.2.tar.gz -C /home/hduser
$ cd /home/hduser
$ sudo mv hadoop-2.6.2 hadoop
$ sudo chown -R hduser:hadoop hadoop

配置Hadoop环境变量

（1）修改系统环境变量

$cd ~
$vi .bashrc
 
把下边的代码复制到vi打开的.bashrc文件末尾，如果JAVA_HOME已经配置过，那就不需要再配置了。
 
#Hadoop variables
#begin of paste
export JAVA_HOME=/usr/lib/jvm/jdk/
export HADOOP_INSTALL=/home/hduser/hadoop
export PATH=$PATH:$HADOOP_INSTALL/bin
export PATH=$PATH:$HADOOP_INSTALL/sbin
export HADOOP_MAPRED_HOME=$HADOOP_INSTALL
export HADOOP_COMMON_HOME=$HADOOP_INSTALL
export HADOOP_HDFS_HOME=$HADOOP_INSTALL
export YARN_HOME=$HADOOP_INSTALL
#end of paste

（2）修改hadoop环境变量

$ cd /home/hduser/hadoop/etc/hadoop
$ vi hadoop-env.sh
 
#必改的就一个，那就是修改JAVA_HOME，其他的可以不修改
export JAVA_HOME=/usr/lib/jvm/jdk/

配置完成后，重新登陆Ubuntu（把terminal关掉，再打开）

输入下边的命令检查是否安装成功

$ hadoop version
Hadoop 2.6.2
...
...
...

配置Hadoop

（1）core-site.xml

$ cd /home/hduser/hadoop/etc/hadoop
$ vi core-site.xml

#把下边的代码复制到<configuration>和</configuration>中间
<property>
   <name>fs.default.name</name>
   <value>hdfs://localhost:9000</value>
</property>

（2）yarn-site.xml

$ vi yarn-site.xml

#把下边的代码复制到<configuration>和</configuration>中间
<property>
   <name>yarn.nodemanager.aux-services</name>
   <value>mapreduce_shuffle</value>
</property>
<property>
   <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
   <value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>

（3）mapred-site.xml

$ mv mapred-site.xml.template mapred-site.xml
$ vi mapred-site.xml

#把下边的代码复制到<configuration>和</configuration>中间
<property>
   <name>mapreduce.framework.name</name>
   <value>yarn</value>
</property>

（4）hdfs-site.xml

$ cd ~
$ mkdir -p mydata/hdfs/namenode
$ mkdir -p mydata/hdfs/datanode
$ cd /home/hduser/hadoop/etc/hadoop
$ vi hdfs-site.xml

#把下边的代码复制到<configuration>和</configuration>中间 
<property>
   <name>dfs.replication</name>
   <value>1</value>
 </property>
 <property>
   <name>dfs.namenode.name.dir</name>
   <value>file:/home/hduser/mydata/hdfs/namenode</value>
 </property>
 <property>
   <name>dfs.datanode.data.dir</name>
   <value>file:/home/hduser/mydata/hdfs/datanode</value>
 </property>

格式化一个新的分布式文件系统：

$ cd ~
$ hdfs namenode -format

启动Hadoop服务

$ start-dfs.sh
....
$ start-yarn.sh
....
 
$ jps
#如果配置成功的话，你会看到类似下边的信息
2583 DataNode
2970 ResourceManager
3461 Jps
3177 NodeManager
2361 NameNode
2840 SecondaryNameNode

运行Hadoop示例

hduser@ubuntu: cd /home/dhuser/hadoop
hduser@ubuntu:/home/dhuser/hadoop$ hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.2.jar pi 2 5
#然后你会看到类似下边的信息
Number of Maps  = 2
Samples per Map = 5
15/10/21 18:41:03 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Wrote input for Map #0
Wrote input for Map #1
Starting Job
15/10/21 18:41:04 INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032
15/10/21 18:41:04 INFO input.FileInputFormat: Total input paths to process : 2
15/10/21 18:41:04 INFO mapreduce.JobSubmitter: number of splits:2
15/10/21 18:41:04 INFO Configuration.deprecation: user.name is deprecated. Instead, use mapreduce.job.user.name
...

本文转自ZH奶酪博客园博客，原文链接：http://www.cnblogs.com/CheeseZH/p/5051135.html，如需转载请自行联系原作者

微信关注我们

原文链接：https://yq.aliyun.com/articles/376182

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Hadoop概念学习系列之分布式数据集的容错性（二十七）

　一般来说，分布式数据集的容错性有两种方式： 1、数据检查点 2、记录数据的更新我们面向的是大规模数据分析，数据检查点操作成本很高：需要通过数据中心的网络连接在机器之间复制庞大的数据集，而网络带宽往往比内存带宽低得多，同时还需要消耗更多的存储资源（在内存中复制数据可以减少需要缓存的数据量，而存储到磁盘则会降低应用程序速度）。所以，我们选择记录更新的方式。但是，如果更新太多，记录更新成本也不低。因此，RDD只支持粗粒度转换，即在大量记录上执行的单个操作。将创建RDD的一系列转换记录下来(即Lineage)，以便恢复丢失的分区。本文转自大数据躺过的坑博客园博客，原文链接：http://www.cnblogs.com/zlslch/p/5718799.html，如需转载请自行联系原作者

2017-11-13

886

Spark shell的实例操作

1、 scala> val inFile = sc.textFile("./spam.data") 作用是将spam.data当作文本文件加载到Spark中，将spam.data文件中的每行作为一个RDD中的单独元素加载到Spark中，并返回一个名为inFile的RDD。 2、 scala> val inFile = sc.textFile([filepath]) 作用是，在本地模式下，可以将文件从本地直接加载。 3、 scala> import spark.SparkFiles; scala> val file = sc.addFile("spam.data") scala> val inFile = sc.textFile(SparkFiles.get("spam.data")) 作用是，让spam.data文件在所有机器上都有备份，使用了SparkContext类中的addFile函数。 4、 scala> val nums = inFile.map(x => x.split(' ').map(_.toDoubl...

2017-11-13

668

发表评论

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。