hadoop jython join ( 1 )-低调大师

hadoop jython join ( 1 )

2017-12-06 690

首先本文中的 hadoop join 在实际开发没有用处！
如果在开发中请使用 cascading groupby, 进行 hadoop join,
本文只是为探讨弄懂 cascading 实现做准备。
当然如果有有人 hadoop join 过请联系我，大家交流下！
文件可能需要的一些参考：
hadoop jython ( windows )
jython ，jython 编译以及jar 包
少量 linux shell
本文介绍 hadoop 可能使用到的 join 接口测试，已经参考：
使用Hadoop实现Inner Join操作的方法【from淘宝】 ：http://labs.chinamobile.com/groups/58_547
下面测试后，我这大体上对 hadoop join 的方式是这样理解的（猜想）：
数据1 ; 数据2
job1 .map( 数据1 ) =（临时文件1）> 文件标示1+需要join列数据
job2 .map( 数据2 ) =（临时文件2）> 文件标示2+需要join列数据
临时文件 mapred.join.expr 生成
job3.map ->
文件标示1+需要join列 : 数据
文件标示2+需要join列 : 数据
......
job3.Combiner - >
需要join列 : 文件标示1+数据
需要join列 : 文件标示2+数据
job3.Reducer->
需要join列 : 使用 java-list > 生成
文件2-列x [ 数据,数据... ]
文件1-列x [ 数据,数据... ]
然后你这 left join ,或 inner join 或 xxx join 逻辑就自己来吧
结果集合
[root@localhost python]# cat /home/megajobs/del/jobs/tools/hadoop-0.18.3/data/090907/1
1
2
3
4
5
[root@localhost python]# cat /home/megajobs/del/jobs/tools/hadoop-0.18.3/data/090907/2
2
4
3
1
修改 ..../hadoop-0.18.3/src/examples/python/compile

# !/usr/bin/env bash

export HADOOP_HOME =/ home /xx / del / jobs / tools / hadoop - 0.18 . 3
export CASCADING_HOME =/ home /xx / del / jobs / tools / cascading - 1.0 . 16 - hadoop - 0.18 . 3
export JYTHON_HOME =/ home /xx / del / jobs / tools / jython2 . 2.1

export CLASSPATH = " $HADOOP_HOME/hadoop-0.18.3-core.jar "

# so that filenames w/ spaces are handled correctly in loops below
IFS =

# add libs to CLASSPATH

for f in $HADOOP_HOME / lib /*. jar; do
  CLASSPATH = ${CLASSPATH} : $f ;
done

for f in $HADOOP_HOME / lib / jetty - ext /*. jar; do
  CLASSPATH = ${CLASSPATH} : $f ;
done

for f in $CASCADING_HOME /*. jar; do
  CLASSPATH = ${CLASSPATH} : $f ;
done

for f in $CASCADING_HOME / lib /*. jar; do
  CLASSPATH = ${CLASSPATH} : $f ;
done

for f in $JYTHON_HOME /*. jar; do
  CLASSPATH = ${CLASSPATH} : $f ;
done

# restore ordinary behaviour

unset IFS

/ home /xx / del / jobs / tools / jython2 . 2.1 / jythonc - p org . apache . hadoop . examples - d - j $ 1 . jar - c $ 1 . py
/ home /xx / del / jobs / tools / hadoop - 0.18 . 3 / bin / hadoop jar $ 1 . jar $ 2 $ 3 $ 4 $ 5 $ 6 $ 7 $ 8 $ 9

简单 数据链接 :

from org.apache.hadoop.fs import Path
from org.apache.hadoop.io import *
from org.apache.hadoop.mapred.lib import *
from org.apache.hadoop.mapred.join   import *
from org.apache.hadoop.mapred import *
import sys
import getopt

class tMap(Mapper, MapReduceBase):
         def map(self, key, value, output, reporter):
                output.collect( Text( str(key) ) , Text( value.toString() ))

def main(args):
        conf = JobConf(tMap)
        conf.setJobName( " wordcount " )

        conf.setMapperClass( tMap )

        FileInputFormat.setInputPaths(conf,[ Path(sp) for sp in args[ 1 : - 1 ]])
        conf.setOutputKeyClass( Text )
        conf.setOutputValueClass( Text )
        conf.setOutputPath(Path(args[ - 1 ]))

        JobClient.runJob(conf)

if __name__ == " __main__ " :main(sys.argv)

运行
./compile test file:///home/xx/del/jobs/tools/hadoop-0.18.3/data/090907/1 file:///home/xx/del/jobs/tools/hadoop-0.18.3/data/090907/2   file:///home/xx/del/jobs/tools/hadoop-0.18.3/tmp/wc78
结果:
[xx@localhost wc78]$ cat ../wc78/part-00000
0   1
0   2
2   4
2   2
4   3
4   3
6   1
6   4
8   5
简单的数据 join :

from org.apache.hadoop.fs import Path
from org.apache.hadoop.io import *
from org.apache.hadoop.mapred.lib import *
from org.apache.hadoop.mapred.join   import *
from org.apache.hadoop.mapred import *
import sys
import getopt

class tMap(Mapper, MapReduceBase):
         def map(self, key, value, output, reporter):
                output.collect( Text( str(key) ) , Text( value.toString() ))

def main(args):
        conf = JobConf(tMap)
        conf.setJobName( " wordcount " )
        conf.setMapperClass( tMap )
        conf.set( " mapred.join.expr " , CompositeInputFormat.compose( " override " ,TextInputFormat, args[ 1 : - 1 ] ) )
        conf.setOutputKeyClass( Text )
        conf.setOutputValueClass( Text )
        conf.setInputFormat(CompositeInputFormat)

        conf.setOutputPath(Path(args[ - 1 ]))

        JobClient.runJob(conf)

if __name__ == " __main__ " :main(sys.argv)

运行结果 ( ) :
./compile test file:///home/xx/del/jobs/tools/hadoop-0.18.3/data/090907/1 file:///home/xx/del/jobs/tools/hadoop-0.18.3/data/090907/2   file:///home/xx/del/jobs/tools/hadoop-0.18.3/tmp/wc79
[xx@localhost wc78]$ cat ../wc79/part-00000
0   2
2   4
4   3
6   1

8 5

本文转自博客园刘凯毅的博客，原文链接：hadoop jython join ( 1 )，如需转载请自行联系原博主。

微信关注我们

原文链接：https://yq.aliyun.com/articles/361134

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

hadoop streaming( hadoop + perl )小试

参考: http://hadoop.apache.org/common/docs/r0.15.2/streaming.html 注意目前 streaming 对 linux pipe #也就是 cat |wc -l 这样的管道不支持，但不妨碍我们使用perl,python 行式命令！！原话是： Can I use UNIX pipes? For example, will -mapper "cut -f1 | sed s/foo/bar/g" work? Currently this does not work and gives an "java.io.IOException: Broken pipe" error. This is probably a bug that needs to be investigated. 但如果你是强烈的 linux shell pipe 发烧友！参考下面 $> perl -e 'open( my $fh, "grep -v null tt |sed -n 1,5p |");while ( <$fh> )...

2017-12-07

566

参考： hadoop window 搭建后,由于对 py 的语法喜欢，一直想把hadoop,改成jython 的这次在自己电脑上终于完成,下面介绍过程: 测试环境：依然的 windows + cygwin hadoop 0.18 # C:/cygwin/home/lky/tools/java/hadoop-0.18.3 jython 2.2.1 # C:/jython2.2.1 参考: PythonWordCount 启动 hadoop 并到 hdoop_home 下 # 在云环境中创建 input 目录 $>bin/hadoopdfs -mkdir input # 在包 hadoop 的 NOTICE.txt 拷贝到 input 目录下 $>bin/hadoopdfs-copyFromLocalc:/cygwin/home/lky/tools/java/hadoop-0.18.3/NOTICE.txt hdfs:///user/lky/input $>cdsrc/examples/python # 创建个脚本 ( jy->jar-&g...

2017-12-07

785

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。