hadoop streaming( hadoop + perl )小试-低调大师

hadoop streaming( hadoop + perl )小试

2017-12-06 570

参考:
http://hadoop.apache.org/common/docs/r0.15.2/streaming.html
注意
目前 streaming 对 linux pipe #也就是 cat |wc -l 这样的管道不支持，但不妨碍我们使用perl,python 行式命令！！
原话是：
Can I use UNIX pipes? For example, will -mapper "cut -f1 | sed s/foo/bar/g" work?
    Currently this does not work and gives an "java.io.IOException: Broken pipe" error.
    This is probably a bug that needs to be investigated.
但如果你是强烈的 linux shell pipe 发烧友！参考下面
$> perl -e 'open( my $fh, "grep -v null tt |sed -n 1,5p |");while ( <$fh> ) {print;} '
     #不过我没测试通过！！
环境：hadoop-0.18.3
$> find . -type f -name "*streaming*.jar"
./contrib/streaming/hadoop-0.18.3-streaming.jar
测试数据：

- bash - 3.00 $ head tt
null     false     3702      208100
6005100     false     70      13220
6005127     false     24      4640
6005160     false     25      4820
6005161     false     20      3620
6005164     false     14      1280
6005165     false     37      7080
6005168     false     104      20140
6005169     false     35      6680
6005240     false     169      32140
......

运行：

c1 = " perl -ne  'if(/.* \ t( .* ) / ){ \ $sum+= \ $ 1 ;}END{ print \" \ $sum\";}' "
# 注意这里 $ 要写成 \$    " 写成 \"
echo $c1; # 打印输出  perl -ne 'if(/.*"t(.*)/){$sum+=$1;}END{print $sum;}'
hadoop jar hadoop - 0.18 . 3 - streaming . jar
    - input file :/// data / hadoop / lky / jar / tt
   - mapper    " /bin/cat "
   - reducer " $c1 "
    - output file :/// tmp / lky / streamingx8

结果:
cat / tmp / lky / streamingx8/*
1166480
本地运行输出:
perl -ne 'if(/.*"t(.*)/){$sum+=$1;}END{print $sum;}' < tt
1166480
结果正确!!!!
命令自带文档：

- bash - 3.00 $ hadoop jar hadoop - 0.18 . 3 - streaming.jar - info
09 / 09 / 25 14 : 50 : 12 ERROR streaming.StreamJob: Missing required option - input
Usage: $HADOOP_HOME / bin / hadoop [ -- config dir] jar \
          $HADOOP_HOME / hadoop - streaming.jar [options]
Options:
   - input     < path >      DFS input file(s) for the Map step
   - output    < path >      DFS output directory for the Reduce step
   - mapper    < cmd | JavaClassName >       The streaming command to run
   - combiner < JavaClassName > Combiner has to be a Java class
   - reducer   < cmd | JavaClassName >       The streaming command to run
   - file      < file >      File / dir to be shipped in the Job jar file
   - dfs     < h:p >| local  Optional. Override DFS configuration
   - jt      < h:p >| local  Optional. Override JobTracker configuration
   - additionalconfspec specfile  Optional.
   - inputformat TextInputFormat( default ) | SequenceFileAsTextInputFormat | JavaClassName Optional.
   - outputformat TextOutputFormat( default ) | JavaClassName  Optional.
   - partitioner JavaClassName  Optional.
   - numReduceTasks < num >   Optional.
   - inputreader < spec >   Optional.
   - jobconf   < n >=< v >     Optional. Add or override a JobConf property
   - cmdenv    < n >=< v >     Optional. Pass env.var to streaming commands
   - mapdebug < path >   Optional. To run this script when a map task fails
   - reducedebug < path >   Optional. To run this script when a reduce task fails
   - cacheFile fileNameURI
   - cacheArchive fileNameURI
   - verbose

本文转自博客园刘凯毅的博客，原文链接：hadoop streaming( hadoop + perl )小试，如需转载请自行联系原博主。

微信关注我们

原文链接：https://yq.aliyun.com/articles/361125

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

大数据~说说Hadoop

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。 Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。 Hadoop的框架最核心的设计就是：HDFS和MapReduce。 HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。优点 Hadoop是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。 Hadoop 是可靠的，因为它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新...

2017-12-07

546

首先本文中的 hadoop join 在实际开发没有用处！如果在开发中请使用 cascading groupby, 进行 hadoop join, 本文只是为探讨弄懂 cascading 实现做准备。当然如果有有人 hadoop join 过请联系我，大家交流下！文件可能需要的一些参考： hadoop jython ( windows ) jython ，jython 编译以及jar 包少量 linux shell 本文介绍 hadoop 可能使用到的 join 接口测试，已经参考：使用Hadoop实现Inner Join操作的方法【from淘宝】：http://labs.chinamobile.com/groups/58_547 下面测试后，我这大体上对 hadoop join 的方式是这样理解的（猜想）：数据1 ; 数据2 job1 .map( 数据1 ) =（临时文件1）> 文件标示1+需要join列数据 job2 .map( 数据2 ) =（临时文件2）> 文件标示2+需要join列数据临时文件 mapred.join.exp...

2017-12-07

691

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。