您现在的位置是:首页 > 文章详情

史上最快! 10小时大数据入门实战(五)-分布式计算框架MapReduce

日期:2018-06-23点击:452
img_31c02313cd1c68e85e3ef322b328bd0f.png
目录

1 MapReduce概述

img_21772479c37477f2663b37afa25ba195.png

2 MapReduce编程模型之通过wordcount词频统计分析案例入门

img_5d2daa00b3a473373efecad040fdd45b.png

MapReduce执行流程

img_9ae90c753f87d07e3b7fdc241edc0aa8.png

img_cbb97b46bd33f93053c7c69c822efaeb.png
img_dc7e7cb5609d1a0f358884ed626850ca.png
  • InputFormat


    img_16473a45dc363ac8209c0710ce77d44e.png

    img_43390f7a5cad73be40d35df5219aaa52.png

    img_54b0d2f1f1d74018e4cf00da2de9420e.png

    img_f3cd519ba9566c789e36a1ae992d84b6.png
  • OutputFormat
    OutputFormt接口决定了在哪里以及怎样持久化作业结果。Hadoop为不同类型的格式提供了一系列的类和接口,实现自定义操作只要继承其中的某个类或接口即可。你可能已经熟悉了默认的OutputFormat,也就是TextOutputFormat,它是一种以行分隔,包含制表符界定的键值对的文本文件格式。尽管如此,对多数类型的数据而言,如再常见不过的数字,文本序列化会浪费一些空间,由此带来的结果是运行时间更长且资源消耗更多。为了避免文本文件的弊端,Hadoop提供了SequenceFileOutputformat,它将对象表示成二进制形式而不再是文本文件,并将结果进行压缩。

3 MapReduce核心概念

img_ebf4e000b41168f64408e8cd2c82785d.png

img_012fc39139036b05a3b472a52bdd01f5.png

3.1 Split

img_88e2b0cb4862ac7f00a702a40b900757.png

3.2 InputFormat

4 MapReduce 1.x 架构

img_2e9c8bad53ff5768c8035383d59c7a6b.png
img_4b43d8f44554c1f661ed6b853cf8ff76.png

img_c99f71c1d8960304ce729d90dc1af0eb.png

img_65957ec055cca28dd458567b69bd6d60.png

img_f79e62c52e5c243ce783920e55f4b37b.png

5 MapReduce 2.x 架构

img_2c490e0c50c9170c2c0f1d74e33d116e.png

6 Java 实现 wordCount

img_5127dd9a55a2f5507bc2151c4d5665d3.png

img_41227dd66b0d83cfdd106c4ea0278434.png
clean package

img_3fd46fea456df3397e9cf6e21a1c29e0.png
上传到Hadoop服务器

img_ceec34ba2cc18cfc821cff9c4e715c90.png
全路径没有问题

img_ce05f034248354a076e68ac4d0092471.png

7 重构

img_cfcd5a21a7c56e8b0d2c8fec67246cd1.png

8 Combiner编程

img_c0c578f8d99ecda4828992c076f9af3c.png

9 Partitoner

img_f5d970db39fa491d2ccc0c49b2be80c8.png

img_34ae74cbc9211497f3ca07ff881823e5.png

10 JobHistoryServer

原文链接:https://yq.aliyun.com/articles/635939
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章