MR IOException: Type mismatch in key from map的处理-低调大师

MR IOException: Type mismatch in key from map的处理

2016-05-12 684

一、错误描述

执行MR出现如下错误，如执行命令是：

hadoop jar /opt/cloudera/parcels/CDH-5.0.1-1.cdh5.0.1.p0.47/lib/hadoop-mapreduce/hadoop-streaming-2.3.0-cdh5.0.1.jar -input /test2 -output /test12 -mapper org.apache.hadoop.mapred.lib.TokenCountMapper -reducer org.apache.hadoop.mapred.lib.LongSumReducer -jobconf mapred.job.name='java mr' -numReduceTasks 1

错误如下：

14/06/09 15:09:50 INFO mapreduce.Job: Task Id : attempt_1401948435703_0028_m_000000_0, Status : FAILED
Error: java.io.IOException: Type mismatch in key from map: expected org.apache.hadoop.io.LongWritable, received org.apache.hadoop.io.Text
at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.collect(MapTask.java:1049)
at org.apache.hadoop.mapred.MapTask$OldOutputCollector.collect(MapTask.java:587)
at org.apache.hadoop.mapred.lib.TokenCountMapper.map(TokenCountMapper.java:54)
at org.apache.hadoop.mapred.lib.TokenCountMapper.map(TokenCountMapper.java:38)
at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:54)
at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:430)
at org.apache.hadoop.mapred.MapTask.run(MapTask.java:342)
at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:168)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:415)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1548)
at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:163)

二、原因及解决方案

    1、map和reduce中的输入输出格式不对。

    2、新旧api混用。你的map()方法没有按新api写，结果系统不认为它是一个重载，而是一个新方法，不会被调用。

    解决办法：在的map(), reduce()前面加上@Override，并按照新的API来写map(), reduce()。

微信关注我们

原文链接：https://yq.aliyun.com/articles/43491

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Hadoop: Why Not Use RAID?

一、针对hadoop集群的磁盘配置建议针对datanode,建议采用一组单独的磁盘，针对namenode节点，建议采用raid5或raid1来实现针对metadata的冗灾。二、针对此问题讨论的资料针对此问题，两篇文章从不同角度论证为什么Hadoop更青睐JBOD而不是RAID-0。分别是： Steve Loughran所撰写的《Why not RAID-0? It’s about Time and Snowflakes》，对Greg Bruno博士（工程副总裁及StackIQ联合创始人）的一个采访《Proper Care and Feeding of Drives in a Hadoop Cluster: A Conversation with StackIQ’s Dr. Bruno》 Raid0的资料：将多个磁盘合并成一个大的磁盘，不具有冗余，并行I/O，速度最快。RAID 0亦称为带区集。它是将多个磁盘并列起来，成为一个大磁盘。在存放数据时，其将数据按磁盘的个数来进行分段，然后同时将这些数据写进这些盘中，所以在所有的级别中，RAID 0的速度是最快的。但是RAID ...

2016-05-12

667

一、HTTPFS简介 1：httpfs是cloudera公司提供的一个hadoop hdfs的一个http接口，通过WebHDFS REST API 可以对hdfs进行读写等访问 2：与WebHDFS的区别是不需要客户端可以访问hadoop集群的每一个节点，通过httpfs可以访问放置在防火墙后面的hadoop集群 3：httpfs是一个Web应用,部署在内嵌的tomcat中用这种方式在数据共享给其他系统时，网络安全上更容易实现，使用请参考： http://archive.cloudera.com/cdh4/cdh/4/hadoop/hadoop-project-dist/hadoop-hdfs/WebHDFS.html 二、启动服务(针对使用cloudera manager安装了CDH4或CDH5）在cm控制台，打开hdfs实例页面，添加httpfs服务，然后启动即可。三、安装可参考（手工安装） http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDH4/latest/CDH4-Install...

2016-05-12

1008

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。