大数据学习路线分享MAPREDUCE
大数据学习路线分享MAPREDUCE,需求:统计大量的文本文件中的单词出现的次数
-
1)整个运算需要分阶段
- 阶段一:并行局部运算
- 阶段二 :汇总处理,不同的阶段需要开发不同的程序
- 2)阶段之间的调用
- 3)业务程序(task程序)如何并发到集群并启动程序
- 4)如何监控task程序的运行状态,如何处理异常
- ::这些问题是开发分布式程序都会面临的问题,完全可以封装成框架::
MR 的结构 - 一个完整的MapReduce运行时有三类实例进程:
- 1)MRAppMaster : 负责整个程序的过程调度和状态调度
- 2)mapTask:负责map阶段的整个数据处理流程
- 3)ReduceTask:负责reduce阶段的整个数据处理流程
MR设计框架
::MAPERDUCE详细框架::
- 1)资源如何分发? ::放到HDFS:::中不能由客户端发送,如果配置1000台机器,也不能做pipeline,所以,可以把jar放在HDFS中的一个目录下。 - 2)虽然有上千台机器,现在job只需要20台机器即可完成,由谁决定是哪20台机器?::ResourceManager:: 作为master - 3)worker--NODEMANAGER,执行应用程序,监控应用程序的资源使用情况(cpu,磁盘,网络,硬盘)并且向调度器ResourceManager汇报
::作业提交流程::
- 1)客户端提交作业给resourcemanager
- 2)resourcemanager返回jobid,存储路径path信息
- 3)客户端将job.jar 、job.split(确定需要运行多少task)、job.splitinfo等资源上传到HDFS的存储路径
- 4)上传到hdfs完成后,客户端通知resourcemanager启动job
- 5)resourcemanager将job加入到job等待队列,然后nodemanager启动container,将资源下载到container内,向客户端发出请求启动master
- 6)Appmaster向resourcemanager请求maptask的资
- 7)resourcemanager分配资源,从hdfs下载jar到container中,master启动maptask,通过心跳机制,检查job.split
- 8)maptask执行完成,通知Appmaster,释放maptask资源。
分片机制
::如何确定需要运行多少task(并行度)::
-
决定需要多大的并行度
- map阶段并行度:客户端首先查看一下待处理数据目录下的数据量
/data/a.txt 1G
/data/b.txt 800M
- 循环遍历:对每个文件看文件有多少个block,将block数量累加到计数器
-
返回一任务规划描述文件:job.split:
- [ ] split0: /data/a.txt 0-128M - [ ] split1: /data/a.txtx 128-256M ….. - [ ] split8: /data/b.txt 0-128M
写入HDFS中
-
分片和分块不同:
- 分片是逻辑概念,给task一个数据处理的范围
- 存在冗余(10%),偏移量和数据大小
- map阶段并行度:客户端首先查看一下待处理数据目录下的数据量
- 特性:移动计算(jar包中封装的计算)而不是移动数据
编写MR程序的步骤:
1、用户编写程序分为三个部分:Mapper、Reducer、Driver
2、Mapper的输入数据是kv对的形式(数据类型可自定义)
3、Mapper的输出数据是kv对的形式(数据类型可自定义)
4、Mapper中的业务逻辑写在map()方法中
5、Map()方法对每一对kv值调用一次
6、Reducer的输入数据是kv对的形式(数据类型可自定义)
7、Reducer的输出数据是kv对的形式(数据类型可自定义)
8、Reducer中的业务逻辑写在reduce()方法中
9、ReduceTask进程对每一组相同的key的调用一次reduce()方法
10、用户自定义的Mapper、Reducer类都要继承各自的父类
11、整个程序需要一个Driver来进行提交,提交是一个描述了各种必要信息的job对象
- 案例:wordcount
- 需求:有一批数据文件(TB或者PB级别的数据),如何统计这些文件中的单词出现次数
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
唱吧基于 MaxCompute 的大数据之路
本文作者:马星显 唱吧大数据负责人 使用 MaxCompute之前,唱吧使用自建体系来存储处理各端收集来的日志数据,包括请求访问记录、埋点数据、服务器业务数据等。初期这套基于开源组件的体系有力支撑了数据统计、业务报表、风控等业务需求。但随着每天处理数据量的增长,积累的历史数据越来越多,来自其他部门同事的需求越来越复杂,自建体系逐渐暴露出了能力上的短板。同时期,唱吧开始尝试阿里云提供的ECS、OSS等云服务,大数据部门也开始使用 MaxCompute来弥补自建体系的不足。在内部ELK实现的基础上,从自建机房向MaxCompute进行数据同步工作是比较简单的,实践中我们主要采取两种方式:一是利用阿里云提供的datahub组件,直接对接logstash;二是把待同步数据落地到文件,然后使用tunnel命令行工具上传至MaxCompute的
- 下一篇
好程序员大数据学习路线分享分布式文件系统HDFS
好程序员大数据学习路线分享分布式文件系统HDFS,设计目标: 1、存储量大 2、自动快速检测应对硬件错误 3、流式访问数据 4、移动计算比移动数据本身更划算 5、简单一致性模型 6、异构平台可移植 特点 优点: 高可靠性:Hadoop按位存储和处理数据的能力强高扩展性:hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中高效性:hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快高容错性:hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。缺点: 不适合低延迟数据访问无法高效存储大量小文件(每个文件存储都有属于自己的索引,元数据庞大就不高效)不支持多用户写入及任意修改文件(可以删除以及追加,只是不能修改文件中某处的数据)重要特性: 文件在物理上是分块存储,块的大小可以通过配置参数(dfs.blocksize)来规定,默认2.x版本之后是128M,老版本是64MHDFS会给哭护短提供一个统一的抽象目录树,客户端通过路径来访问文件,刑辱:hdfs://namenode:port/dir-...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
-
Docker使用Oracle官方镜像安装(12C,18C,19C)
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS8编译安装MySQL8.0.19
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS7,8上快速安装Gitea,搭建Git服务器
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
推荐阅读
最新文章
- Windows10,CentOS7,CentOS8安装Nodejs环境
- CentOS8编译安装MySQL8.0.19
- CentOS6,CentOS7官方镜像安装Oracle11G
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- 设置Eclipse缩进为4个空格,增强代码规范
- CentOS7,8上快速安装Gitea,搭建Git服务器
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题