Hadoop常见错误1-低调大师

Hadoop常见错误1

2016-02-25 980

1 关于 Warning: $HADOOP_HOME is deprecated.

　　hadoop 1.0.0版本，安装完之后敲入hadoop命令时，老是提示这个警告：

Warning: $HADOOP_HOME is deprecated.

　　经查hadoop-1.0.0/bin/hadoop脚本和"hadoop-config.sh"脚本，发现脚本中对HADOOP_HOME的环境变量设置做了判断，笔者的环境根本不需要设置HADOOP_HOME环境变量。

　　解决方案一：编辑"/etc/profile"文件，去掉HADOOP_HOME的变量设定，重新输入hadoop fs命令，警告消失。

　　解决方案二：编辑"/etc/profile"文件，添加一个环境变量，之后警告消失：
export HADOOP_HOME_WARN_SUPPRESS=1

　　我们这里本着不动Hadoop原配置文件的前提下，采用"方案二"，在"/etc/profile"文件添加上面内容，并用命令"source /etc/profile"使之有效。

2 解决"no datanode to stop"问题

　　当我停止Hadoop时发现如下信息：

　　原因：每次namenode format会重新创建一个namenodeId，而tmp/dfs/data下包含了上次format下的id，namenode format清空了namenode下的数据，但是没有清空datanode下的数据，导致启动时失败，所要做的就是每次fotmat前，清空tmp一下的所有目录。

　　第一种解决方案如下：

　　1）先删除"/usr/hadoop/tmp"

rm -rf /usr/hadoop/tmp

　　2）创建"/usr/hadoop/tmp"文件夹

mkdir /usr/hadoop/tmp

　　3）删除"/tmp"下以"hadoop"开头文件

rm -rf /tmp/hadoop*

　　4）重新格式化hadoop

hadoop namenode -format

　　5）启动hadoop

start-all.sh

　　使用第一种方案，有种不好处就是原来集群上的重要数据全没有了。假如说Hadoop集群已经运行了一段时间。建议采用第二种。

　　第二种方案如下：

　　1）修改每个Slave的namespaceID使其与Master的namespaceID一致。

　　或者

　　2）修改Master的namespaceID使其与Slave的namespaceID一致。

　　该"namespaceID"位于"/usr/hadoop/tmp/dfs/data/current/VERSION"文件中，前面蓝色的可能根据实际情况变化，但后面红色是不变的。

　　例如：查看"Master"下的"VERSION"文件

　　本人建议采用第二种，这样方便快捷，而且还能防止误删。

3 Slave服务器中datanode启动后又自动关闭

　　查看日志发下如下错误。

　　ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Call to ... failed on local exception: java.net.NoRouteToHostException: No route to host

　　解决方案是：关闭防火墙

service iptables stop

4 从本地往hdfs文件系统上传文件

　　出现如下错误：

　　INFO hdfs.DFSClient: Exception in createBlockOutputStream java.io.IOException: Bad connect ack with firstBadLink

　　INFO hdfs.DFSClient: Abandoning block blk_-1300529705803292651_37023

　　WARN hdfs.DFSClient: DataStreamer Exception: java.io.IOException: Unable to create new block.

　　解决方案是：

　　1）关闭防火墙

service iptables stop

　　2）禁用selinux

编辑 "/etc/selinux/config"文件，设置"SELINUX=disabled"

5 安全模式导致的错误

　　出现如下错误：

　　org.apache.hadoop.dfs.SafeModeException: Cannot delete ..., Name node is in safe mode

　　在分布式文件系统启动的时候，开始的时候会有安全模式，当分布式文件系统处于安全模式的情况下，文件系统中的内容不允许修改也不允许删除，直到安全模式结束。安全模式主要是为了系统启动的时候检查各个DataNode上数据块的有效性，同时根据策略必要的复制或者删除部分数据块。运行期通过命令也可以进入安全模式。在实践过程中，系统启动的时候去修改和删除文件也会有安全模式不允许修改的出错提示，只需要等待一会儿即可。

　　解决方案是：关闭安全模式

hadoop dfsadmin -safemode leave

6 解决Exceeded MAX_FAILED_UNIQUE_FETCHES

　　出现错误如下：

　　Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out

　　程序里面需要打开多个文件，进行分析，系统一般默认数量是1024，（用ulimit -a可以看到）对于正常使用是够了，但是对于程序来讲，就太少了。

　　解决方案是：修改2个文件。

　　1）"/etc/security/limits.conf"

vim /etc/security/limits.conf

　　加上：

soft nofile 102400

hard nofile 409600

　　2）"/etc/pam.d/login"

vim /etc/pam.d/login

　　添加：

session required /lib/security/pam_limits.so

　　针对第一个问题我纠正下答案：

　　这是reduce预处理阶段shuffle时获取已完成的map的输出失败次数超过上限造成的，上限默认为5。引起此问题的方式可能会有很多种，比如网络连接不正常，连接超时，带宽较差以及端口阻塞等。通常框架内网络情况较好是不会出现此错误的。

7 解决"Too many fetch-failures"

　　出现这个问题主要是结点间的连通不够全面。

　　解决方案是：

　　1）检查"/etc/hosts"

　　要求本机ip 对应服务器名

　　要求要包含所有的服务器ip +服务器名

　　2）检查".ssh/authorized_keys"

　　要求包含所有服务器（包括其自身）的public key

8 处理速度特别的慢

　　出现map很快，但是reduce很慢，而且反复出现"reduce=0%"。

　　解决方案如下：

　　结合解决方案5.7，然后修改"conf/hadoop-env.sh"中的"export HADOOP_HEAPSIZE=4000"

9解决hadoop OutOfMemoryError问题

　　出现这种异常，明显是jvm内存不够得原因。

　　解决方案如下：要修改所有的datanode的jvm内存大小。

Java –Xms 1024m -Xmx 4096m

　　一般jvm的最大内存使用应该为总内存大小的一半，我们使用的8G内存，所以设置为4096m，这一值可能依旧不是最优的值。

10 Namenode in safe mode

　　解决方案如下：

bin/hadoop dfsadmin -safemode leave

11 IO写操作出现问题

　　0-1246359584298, infoPort=50075, ipcPort=50020):Got exception while serving blk_-5911099437886836280_1292 to /172.16.100.165:

　　java.net.SocketTimeoutException: 480000 millis timeout while waiting for channel to be ready for write. ch : java.nio.channels.SocketChannel[connected local=/

　　172.16.100.165:50010 remote=/172.16.100.165:50930]

　　at org.apache.hadoop.net.SocketIOWithTimeout.waitForIO(SocketIOWithTimeout.java:185)

　　at org.apache.hadoop.net.SocketOutputStream.waitForWritable(SocketOutputStream.java:159)

　　……

　　It seems there are many reasons that it can timeout, the example given in HADOOP-3831 is a slow reading client.

解决方案如下：

　　在hadoop-site.xml中设置dfs.datanode.socket.write.timeout=0

12 status of 255 error

　　错误类型：

　　java.io.IOException: Task process exit with nonzero status of 255.

　　at org.apache.hadoop.mapred.TaskRunner.run(TaskRunner.java:424)

　　错误原因：

　　Set mapred.jobtracker.retirejob.interval and mapred.userlog.retain.hours to higher value. By default, their values are 24 hours. These might be the reason for failure, though I'm not sure restart.

　　解决方案如下：单个datanode

　　如果一个datanode 出现问题，解决之后需要重新加入cluster而不重启cluster，方法如下：

bin/hadoop-daemon.sh start datanode

bin/hadoop-daemon.sh start jobtracker

微信关注我们

原文链接：https://yq.aliyun.com/articles/578897

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Hadoop资料整理导向

一、Hadoop快速入门分布式计算开源框架Hadoop_入门实践一篇不错的hadoop介绍文章用 Hadoop 进行分布式数据处理---- 入门 Hadoop入门实验 Hadoop入门一图解说Hadoop的发展历程讨论：Hadoop社区与中国云计算开源展望用Hadoop进行分布式数据处理入门篇 Hadoop入门简介 hadoop入门语录为什么Hadoop一定是分布式计算的未来？ Hadoop Ubuntu 学习笔记二、Hadoop集群搭建 Hadoop集群安装 Hadoop超级安装手册云计算的利刃：快速部署Hadoop集群 Hadoop学习笔记之二：部署与应用实例 ubuntu下hadoop的部署 ssh的无密码登陆 Hadoop的安装部署以及使用 Hadoop集群搭建 Hadoop中的集群配置和使用技巧三、Hadoop分布式文件系统：架构和设计大数据下的数据分析-Hadoop架构解析 Hadoop分布式文件系统：架构和设计要点 Hadoop的HDFS 四、Hadoop 命令和使用指南 Hadoop中的数据库访问 Hadoop in Practice 用Hadoo...

2016-02-25

860

Elasticsearch最近一段时间非常火，以致于背后的公司都改名为Elastic了，因为Elasticsearch已经不仅限于搜索，反而更多的用在大数据分析场景，所以在公司品牌上开始“去Search化”。这得益于其强大的支持聚合分析的Query DSL，虽然这个DSL的语法有点复杂，但底层的技术确实牛B，分布式的快速分析引擎，Elasticsearch已经占有一席之地。大家知道，搜索引擎的基本数据结构是反向索引，也就是为每个关键词建立了到文档的映射，然后所有的关键词是一个有序列表。搜索的时候，只要先从有序列表中匹配到关键词，就能搜索到包含该关键词的所有文档，反向索引的数据结构对于关键词搜索的场景是非常高效的。但聚合分析和搜索有很大的不同。典型的场景，比如计算某个文档中每个关键词的出现次数，反向索引就无能为力了，需要先扫描整个关键词映射表，才能找到该文档包含的所有关键词，然后再进行聚合统计（这个例子其实不太准确，因为Lucene在反向索引中冗余了词频的信息，用于计算搜索相关度），也就是要对整个反向索引做全扫描，在数据量大的时候，性能当然好不到哪里去。所以，Elasticsear...

2016-02-25

665

资源下载

更多资源

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。