hadoop分布式集群部署以及过程中遇到的一些坑
在hadoop学习过程中,首先第一步是部署伪分布以及分布式集群。 在集群的部署过程中http://www.powerxing.com/install-hadoop-cluster/ 使用这篇博客作为参考。 在部署过程中。 遇到一些问题。 比如:用PYTHON 跑一个简单的MAPREDUCE 任务,首先需要现在streamingJAR包,简单的说这个包封装了一些常用的接口,PYTHON 通过标准输入输出来调用这个包。最终完成在内部用JAVA实现的功能。 下载地址为:http://www.java2s.com/Code/JarDownload/hadoop-streaming/ python 程序为 mapper.py #!/usr/bin/env python import sys for line in sys.stdin: line = line.strip() words = line.split() for word in words: print "%s\t%s" % (word, 1) 以及reducer.py **#!/usr/bin/env python from ope...
