大数据学习路线分享MAPREDUCE-低调大师

大数据学习路线分享MAPREDUCE

2019-08-21 601

　　大数据学习路线分享MAPREDUCE，需求：统计大量的文本文件中的单词出现的次数

1）整个运算需要分阶段
- 阶段一：并行局部运算
- 阶段二：汇总处理，不同的阶段需要开发不同的程序
2）阶段之间的调用
3）业务程序（task程序）如何并发到集群并启动程序
4）如何监控task程序的运行状态，如何处理异常
::这些问题是开发分布式程序都会面临的问题，完全可以封装成框架::
MR 的结构
一个完整的MapReduce运行时有三类实例进程：
1）MRAppMaster ：负责整个程序的过程调度和状态调度
2）mapTask：负责map阶段的整个数据处理流程
3）ReduceTask：负责reduce阶段的整个数据处理流程
MR设计框架

::MAPERDUCE详细框架::

    - 1）资源如何分发？ ::放到HDFS:::中不能由客户端发送，如果配置1000台机器，也不能做pipeline，所以，可以把jar放在HDFS中的一个目录下。
    - 2）虽然有上千台机器，现在job只需要20台机器即可完成，由谁决定是哪20台机器？::ResourceManager:: 作为master
    - 3)worker--NODEMANAGER,执行应用程序，监控应用程序的资源使用情况（cpu，磁盘，网络，硬盘）并且向调度器ResourceManager汇报

::作业提交流程::

1）客户端提交作业给resourcemanager
2）resourcemanager返回jobid，存储路径path信息
3）客户端将job.jar 、job.split（确定需要运行多少task）、job.splitinfo等资源上传到HDFS的存储路径
4）上传到hdfs完成后，客户端通知resourcemanager启动job
5）resourcemanager将job加入到job等待队列，然后nodemanager启动container，将资源下载到container内，向客户端发出请求启动master
6)Appmaster向resourcemanager请求maptask的资
7）resourcemanager分配资源，从hdfs下载jar到container中，master启动maptask，通过心跳机制，检查job.split
8）maptask执行完成，通知Appmaster，释放maptask资源。

分片机制

::如何确定需要运行多少task（并行度）::

决定需要多大的并行度
- map阶段并行度：客户端首先查看一下待处理数据目录下的数据量
  /data/a.txt 1G
/data/b.txt 800M
- 循环遍历：对每个文件看文件有多少个block，将block数量累加到计数器
- 返回一任务规划描述文件：job.split：
```
                    - [ ] split0:     /data/a.txt         0-128M
                    - [ ] split1:    /data/a.txtx     128-256M
                    …..
                    - [ ] split8:    /data/b.txt         0-128M
```
  写入HDFS中
- 分片和分块不同：
  - 分片是逻辑概念，给task一个数据处理的范围
  - 存在冗余（10%），偏移量和数据大小
特性：移动计算（jar包中封装的计算）而不是移动数据

编写MR程序的步骤：
1、用户编写程序分为三个部分：Mapper、Reducer、Driver
2、Mapper的输入数据是kv对的形式（数据类型可自定义）
3、Mapper的输出数据是kv对的形式（数据类型可自定义）
4、Mapper中的业务逻辑写在map（）方法中
5、Map（）方法对每一对kv值调用一次
6、Reducer的输入数据是kv对的形式（数据类型可自定义）
7、Reducer的输出数据是kv对的形式（数据类型可自定义）
8、Reducer中的业务逻辑写在reduce（）方法中
9、ReduceTask进程对每一组相同的key的调用一次reduce（）方法
10、用户自定义的Mapper、Reducer类都要继承各自的父类
11、整个程序需要一个Driver来进行提交，提交是一个描述了各种必要信息的job对象

案例：wordcount
需求：有一批数据文件（TB或者PB级别的数据），如何统计这些文件中的单词出现次数

微信关注我们

原文链接：https://yq.aliyun.com/articles/715459

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

唱吧基于 MaxCompute 的大数据之路

本文作者：马星显唱吧大数据负责人使用 MaxCompute之前，唱吧使用自建体系来存储处理各端收集来的日志数据，包括请求访问记录、埋点数据、服务器业务数据等。初期这套基于开源组件的体系有力支撑了数据统计、业务报表、风控等业务需求。但随着每天处理数据量的增长，积累的历史数据越来越多，来自其他部门同事的需求越来越复杂，自建体系逐渐暴露出了能力上的短板。同时期，唱吧开始尝试阿里云提供的ECS、OSS等云服务，大数据部门也开始使用 MaxCompute来弥补自建体系的不足。在内部ELK实现的基础上，从自建机房向MaxCompute进行数据同步工作是比较简单的，实践中我们主要采取两种方式：一是利用阿里云提供的datahub组件，直接对接logstash；二是把待同步数据落地到文件，然后使用tunnel命令行工具上传至MaxCompute的

2019-08-21

800

好程序员大数据学习路线分享分布式文件系统HDFS，设计目标： 1、存储量大 2、自动快速检测应对硬件错误 3、流式访问数据 4、移动计算比移动数据本身更划算 5、简单一致性模型 6、异构平台可移植特点优点：高可靠性：Hadoop按位存储和处理数据的能力强高扩展性：hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中高效性：hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快高容错性：hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。缺点：不适合低延迟数据访问无法高效存储大量小文件（每个文件存储都有属于自己的索引,元数据庞大就不高效）不支持多用户写入及任意修改文件（可以删除以及追加，只是不能修改文件中某处的数据）重要特性：文件在物理上是分块存储，块的大小可以通过配置参数(dfs.blocksize)来规定,默认2.x版本之后是128M，老版本是64MHDFS会给哭护短提供一个统一的抽象目录树，客户端通过路径来访问文件,刑辱：hdfs://namenode:port/dir-...

2019-08-21

645

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。