MapReduce原理及实例分析
前言 由于最近开始涉及MR程序的编写,之前会一点HIVE,对MR接触不多,不论从原理还是实际操作上,都有些障碍,终于在今天柳暗花明,将这一过程记录下,与大家分享~ 环境准备 在VM上搭建好LINUX虚拟机,并安装配置好HADOOP2.2.0,我这里是单节点的伪分布式 在eclipse中安装hadoop插件 对我们这种MR的新手而言,最好在本地有一个HADOOP运行环境,这样有许多好处: 如果我们每次写完MR程序,都打成JAR包上传至线上服务器上运行,那么每次MR运行的时间非常长,也许等待了许久,运行结果和我们预期不一致,又得改程序重新来一边,这会有一点痛苦! 在我们本地的HADOOP上运行MR程序非常快,就那么几秒,更加重要的是,我们可以再 本地准备输入文件去测试MR的逻辑,这对调试/开发程序非常方便! 实例及原理分析 假设,我们有这样的输入文件: cate-aspu-11 cate-aspu-12 cate-aspu-23 cate-aspu-24 cate-aspu-35 cate-aspu-36 cate-aspu-17 cate-aspu-48 cate-aspu-49 cat...
