Hadoop学习笔记一:单节点安装
通过本节的学习,可以掌握如何在单节点上使用Hadoop进行Map/Reduce以及HDFS存储的实现。
环境要求:
支持的平台:
支持GNU/Linux平台,可以作为测试和生产环境使用。Hadoop在2000个节点的生产环境中经受过考验。
支持Win32平台作为测试环境,正式环境的测试还不够充分,所以发布版暂时不能支持Win32环境。
需要的软件:
1、Java 1.6.x,必须。
2、ssh、sshd,必须。
如果是在Windows环境下,你也许需要 Cygwin。
安装必要的软件
如果服务器没有必要的软件,就必须进行安装。不同的发行版本,有不同的安装方法。例如Ubuntu下:
$ sudo apt-get install ssh
$ sudo apt-get install rsync
下载Hadoop
从 这里 下载一个Hadoop的稳定版本。
开始我们的Hadoop之旅
解压下载的软件,在解压后的目录中,编辑 conf/hadoop-env.sh 脚本设置服务器的JAVA_HOME目录。
我的环境是 Centos6.0,yum安装了OPEN-JDK,对应的目录为:
/usr/lib/jvm/java-1.6.0-openjdk-1.6.0.0/jre/
执行 bin/hadoop 命令,如果如下图所示,我们就做好使用 Hadoop 的准备了。
可以用三种方式使用Hadoop:
本地模式(Local Standalone Mode);
伪分布式模式(Pseudo-Distributed Mode);
完全分布式模式;
本地模式
默认情况下,Hadoop是配置为本地运行的,以一个单独的Java进程运行,这种方式非常适合Debug。
在本地,我选择了对 194Mb 的访问日志进行分析,如下代码:
bin/hadoop jar hadoop-examples-0.20.203.0.jar grep input/ output/ 'favicon[a-z.]+'
这个任务是分析日志中出现的favicon的次数,统计结果如下:
其中part文件中存储了我要查找的favicon字符串出现的次数。
伪分布式模式
配置:
参照官方的配置进行,分别对conf/core-site.xml、conf/hdf-site.xml、conf/mapred-site.xml进行配置。配置的内容都比较类似,主要是配置一个服务器的主机名,然后配置对应的IP或值。
设置无需密码的SSH:
按照官方的设置
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
但是第一次登陆的时候始终需要提示是否保存,这个有点不得其解。
执行:
首先格式化一个新的分布式文件系统
$ bin/hadoop namenode -format
完成后,会有一些提示,根据提示可以在 /tmp/hadoop-root/dfs 中找到两个文件夹。
然后启动 Hadoop 的守护进程
$ bin/start-all.sh
我在安装的过程中提示了未知的jvm参数,但是并没有重大的影响,启动仍正常结束了,不知道什么原因。
这个问题是因为用root用户启动造成的,可以参考参考资料6中的方法,为hadoop这个文件打一个patch就可以解决。然后重新格式化namenode,进行测试。
bin/hadoop jar hadoop-examples-0.20.203.0.jar grep logs output 'favicon'
执行上面的语句,可以对日志进行 WordCount 的分析。
测试完成后,可以关闭所有的服务
bin/stop-all.sh
参考资料:
3、Hdfs error:could only be replicated to 0 nodes instead of 1
4、Hadoop:Could not create Java Virtual Machine
6、Faile to start datanode while start-dfs.sh is executed by root user

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
给asp.net mvc小白扫盲用的
cshtml是什么,what is cshtml? 在安装了WebMatrix以后,新建立的网站,发现有文件后缀为cshtml的文件。 没google到,怀疑和shtml一样,可能属于WebMatrix在shtml基础上的扩展的版本。 【1】Razor: 必须提到Razor Razor是ASP.NET的新的视图引擎,可以查看ASP.NET的文件,展示给用户。 ASP.NET MVC 有几个视图引擎:默认使用的是Web Form,还有Spark和NHaml,现在增加了Razor。 使用Razor,我们可以编辑一些界面文件。例如你可以编写.aspx ,也可以编写.cshtml 和.vbhtml ,对应于C#和VB这两种语言。 是Razor特有的文件格式。 ucing “Razor” – a new view engine for ASP.NET。 ASP.NET MVC has always supported the concept of “view engines” – which are the pluggable modules that implement different t...
- 下一篇
揭秘Facebook背后的那些软件
对于Facebook这样超大规模的网站,很多传统的解决方案根本不适用。Facebook工程师们面临的巨大挑战是保证一个近5亿活跃用户的网站一直稳定可靠地运行。他们是如何做到的呢,这篇文章将介绍一下他们所使用的软件和技术。 Facebook飞速发展面临的挑战 在进入讨论细节之前,先看下面的一些数据,也许让你对Facebook所面临的巨大挑战有一些直观的认识: Facebook每月有5700亿页面浏览量(据Google Ad Planner)。 Facebook的照片量比其他所有图片网站加起来的还要多(包括Flickr等网站)。 每个月超过30亿张照片被上传。 Facebook的系统每秒要处理120万张照片。这还不包括CDN处理的照片。 每月有超过25亿条内容(状态更新,评论等)被共享。 Facebook有超过30,000台服务器(这是去年的数据!) Facebook飞速发展所依赖的软件 在某些程度上说,Facebook仍然是LAMP的站点,但为了能容纳很多其他的元素与服务,Facebook不得不对它们进行改进与扩展,并修改现行的一些做法。 例如: Facebook仍使用PHP,但为它建立...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- SpringBoot2全家桶,快速入门学习开发网站教程
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- SpringBoot2整合Redis,开启缓存,提高访问速度
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- CentOS8编译安装MySQL8.0.19
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池