记一次mapreduce读取不到输入文件的问题-低调大师

记一次mapreduce读取不到输入文件的问题

2017-11-13 556

hdfs上输入文件所在包含两个目录，分别是： /20170503/shoplast/

/20170503/shop/

但是我想过滤掉shop，只把shoplast作为输入

故我实现了过滤器如下：

 
         public  
         static 
         class 
         FileNameFilter 
         implements 
         PathFilter { 
        
         @Override 
        
         public 
         boolean 
         accept(Path path) { 
        
         if 
         (path.getName().endsWith(
         "last"
         )) {          
        
         return 
         true
         ; 
        
         } 
        
         else 
         { 
        
         return 
         false
         ; 
        
         } 
        
         } 
        
         }

然后mapreduce的输入设为 /20170503/*，开始执行。。。

结果 Total input paths to process : 0 输入文件数为0！这什么鬼！

-----------------------------

看了源码之后感觉自己是个弱智啊。源码如下：

 
         protected 
         List<FileStatus> listStatus(JobContext job 
        
         ) 
         throws 
         IOException { 
        
         List<FileStatus> result = 
         new 
         ArrayList<FileStatus>(); 
        
         Path[] dirs = getInputPaths(job); 
        
         if 
         (dirs.length == 
         0
         ) { 
        
         throw 
         new 
         IOException(
         "No input paths specified in job"
         ); 
        
         } 
        
         // get tokens for all the required FileSystems.. 
        
         TokenCache.obtainTokensForNamenodes(job.getCredentials(), dirs,  
        
         job.getConfiguration()); 
        
         // Whether we need to recursive look into the directory structure 
        
         boolean 
         recursive = getInputDirRecursive(job); 
        
         List<IOException> errors = 
         new 
         ArrayList<IOException>(); 
        
         // creates a MultiPathFilter with the hiddenFileFilter and the 
        
         // user provided one (if any). 
        
         List<PathFilter> filters = 
         new 
         ArrayList<PathFilter>(); 
        
         filters.add(hiddenFileFilter); 
        
         PathFilter jobFilter = getInputPathFilter(job); 
        
         if 
         (jobFilter != 
         null
         ) { 
        
         filters.add(jobFilter); 
        
         } 
        
         PathFilter inputFilter = 
         new 
         MultiPathFilter(filters); 
        
         for 
         (
         int 
         i=
         0
         ; i < dirs.length; ++i) { 
        
         Path p = dirs[i]; 
        
         FileSystem fs = p.getFileSystem(job.getConfiguration());  
        
         FileStatus[] matches = fs.globStatus(p, inputFilter); 
        
         if 
         (matches == 
         null
         ) { 
        
         errors.add(
         new 
         IOException(
         "Input path does not exist: " 
         + p)); 
        
         } 
         else 
         if 
         (matches.length == 
         0
         ) { 
        
         errors.add(
         new 
         IOException(
         "Input Pattern " 
         + p + 
         " matches 0 files"
         )); 
        
         } 
         else 
         { 
        
         for 
         (FileStatus globStat: matches) { 
        
         if 
         (globStat.isDirectory()) { 
        
         RemoteIterator<LocatedFileStatus> iter = 
        
         fs.listLocatedStatus(globStat.getPath()); 
        
         while 
         (iter.hasNext()) { 
        
         LocatedFileStatus stat = iter.next(); 
        
         if 
         (inputFilter.accept(stat.getPath())) { 
        
         if 
         (recursive && stat.isDirectory()) { 
        
         addInputPathRecursively(result, fs, stat.getPath(), 
        
         inputFilter); 
        
         } 
         else 
         { 
        
         result.add(stat); 
        
         } 
        
         } 
        
         } 
        
         } 
         else 
         { 
        
         result.add(globStat); 
        
         } 
        
         } 
        
         } 
        
         } 
        
         if 
         (!errors.isEmpty()) { 
        
         throw 
         new 
         InvalidInputException(errors); 
        
         } 
        
         LOG.info(
         "Total input paths to process : " 
         + result.size());  
        
         return 
         result; 
        
         }

仔细看这段

 
         for 
         (FileStatus globStat: matches) { 
        
         if 
         (globStat.isDirectory()) { 
        
         RemoteIterator<LocatedFileStatus> iter = 
        
         fs.listLocatedStatus(globStat.getPath()); 
        
         while 
         (iter.hasNext()) { 
        
         LocatedFileStatus stat = iter.next(); 
        
         if 
         (inputFilter.accept(stat.getPath())) { 
        
         if 
         (recursive && stat.isDirectory()) { 
        
         addInputPathRecursively(result, fs, stat.getPath(), 
        
         inputFilter); 
        
         } 
         else 
         { 
        
         result.add(stat); 
        
         } 
        
         } 
        
         } 
        
         } 
         else 
         { 
        
         result.add(globStat); 
        
         } 
        
         }

以为过滤器是针对最终的输入文件名。如果输入的路径为目录，它会跟进里面的文件的

好吧，接下来修改下过滤器吧。

 
         public  
         static 
         class 
         FileNameFilter 
         implements 
         PathFilter { 
        
         @Override 
        
         public 
         boolean 
         accept(Path path) { 
        
         if 
         (path.getParent().getName().endsWith(
         "last"
         )) {          
        
         return 
         true
         ; 
        
         } 
        
         else 
         { 
        
         return 
         false
         ; 
        
         } 
        
         } 
        
         }

再次运行，当当当

 
         cause:org.apache.hadoop.mapreduce.lib.input.InvalidInputException: Input Pattern hdfs:
         //20170503/
         * matches 0 files 
        
         Exception 
         in 
         thread 
         "main" 
         org.apache.hadoop.mapreduce.lib.input.InvalidInputException: Input Pattern hdfs:
         //20170503/
         * matches 0 files

还是读取不到输入文件，这是什么原因呢？看源码吧，还是上面贴出的那个方法。

 
         Path p = dirs[i];
        
         FileSystem fs = p.getFileSystem(job.getConfiguration());  
        
         FileStatus[] matches = fs.globStatus(p, inputFilter); 
        
         if 
         (matches == 
         null
         ) { 
        
         errors.add(
         new 
         IOException(
         "Input path does not exist: " 
         + p)); 
        
         } 
         else 
         if 
         (matches.length == 
         0
         ) { 
        
         errors.add(
         new 
         IOException(
         "Input Pattern " 
         + p + 
         " matches 0 files"
         )); 
        
         }

不继续跟进globStatus方法了，想了解的自己去看源码吧。总之，这里是针对父目录的也应用了过滤器

结论：过滤器不光针对最终的文件，输入路径的父目录也要应用过滤器。

本文转自落花非有意 51CTO博客，原文链接：http://blog.51cto.com/1992zhong/1921938，如需转载请自行联系原作者

微信关注我们

原文链接：https://yq.aliyun.com/articles/550118

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Eclipse的下载、安装和WordCount的初步使用（本地模式和集群模式）

包括：　　 Eclipse的下载 Eclipse的安装 Eclipse的使用本地模式或集群模式 Scala IDE for Eclipse的下载、安装和WordCount的初步使用（本地模式和集群模式） IntelliJ IDEA的下载、安装和WordCount的初步使用（本地模式和集群模式）我们知道，对于开发而言，IDE是有很多个选择的版本。如我们大部分人经常用的是如下。 Eclipse*版本 Eclipse*下载现在啊，在业界，用java语言，开发是霸主地位。比如，一个高级的高手人员，在企业里，做了一个大开发，他走了之后，一般java，还算比较好其余的人，熟悉和做二次开发。 Eclipse的使用创建Maven工程这里，其实，可以跳过，参考我的博客 Eclipse下新建Maven项目、自动打依赖jar包新建包com.zhouls.spark.SparkApps.cores 新建WordCount.java Ctrl + 2 ，再选择 Quick Assist - Assign to local variable...

2017-11-14

597

Hive group by操作后将其他字段串接

表tmp_test a ios b andriod a andriod 目标数据 a ios|andriod b andriod sql：select uid,concat_ws('|', collect_set(device)) from tmp_test group by uid; collect_set 是 Hive 内置的一个聚合函数, 它返回一个消除了重复元素的对象集合, 其返回值类型是 array 。本文转自落花非有意 51CTO博客，原文链接：http://blog.51cto.com/1992zhong/1893017，如需转载请自行联系原作者

2017-11-14

637

发表评论

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。