MapReduce 学习(一)-低调大师

MapReduce 学习(一)

2016-09-07 691

首先我们先来欣赏一下MapReduce的执行过程吧，如下图，自己看，不解释了。

Map 和 Reduce 的处理都是基于Key/Value来进行的，在Map中对文件的每一行进行处理，有两个输入参数，KeyInput，ValueInput，然后有两个输出，KeyOut，ValueOut，在Map执行之后有个Combiner，负责把多个Map传过来的Key相同的Value生成一个Iterable接口的集合，也可以自己指定一个Combiner，可以提高性能，要慎用，经过Combiner处理之后，就把处理过的内容传给Reduce，这是个一对一的过程，Reduce的输出也是KeyOut，ValueOut，最后是输出到文件，这里还有一个Partitiner，实现它可以把输出分别写到多个文件上，否则将会把所有reduce产生的文件输出到一个文件当中，好，我们来看一下下面这个图，大家就可以有一个更直观的感受了！

好啦，理论就讲到这里。

微信关注我们

原文链接：https://yq.aliyun.com/articles/60178

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

hbase 部署

hbase的部署相对于java来说就比较简单啦，主要过程如下： 1.下载hbase最新的稳定版 2.拷贝到相应的目录 3.修改conf目录下的hbase-env.sh,设置java 和不适用内置的zookeeper export JAVA_HOME=/usr/java/jdk1.7.0_21/ export HBASE_MANAGES_ZK=false 4.修改hbase-site.xml,添加以下内容 <property> <name>hbase.rootdir</name> <value>hdfs://hadoop.Master:9000/hbase</value> </property> <property> <name>hbase.cluster.distributed</name> <value>true</value> </property> <property> <name>hbase.master<...

2016-09-07

737

群里共享了一本hive调优的书记，名叫《Hive Tunning》，就忍不住开始看了，也顺便记录一下自己学到的东西，备忘！首先，这是hive的数据摘要，别问我什么意思，我也没看懂。好，我们正式开始，首先是连接的问题，我们都知道连接耗时长，但是连接无法避免，那hive又是怎么处理连接操作的呢？下面是hive的连接策略: hive有三种类型的连接策略: （1）Shuffle Join ：这种类型的是通过map/reduce 来实现连接操作的，优点是不需要考虑数据的大小和分布，缺点是消耗大量的资源而且是最慢的。（2）Broadcast Join：这种类型的方式是把一个小的表在所有节点中加载到内容当中，然后用mapper来扫描大表进行连接，速度非常快，但是其中一个表必须可以加载到内存当中。（3）Sort-Merge-Bucket Join：mapper可以协同定位keys去进行高效的连接，速度很快，不需要考虑表的大小，但是数据必须先排序和整理。 Shuffle Join: 我们以这个销售订单这个例子来做演示，可以看到其中的图，它们是通过customer.id=order.cid来...

2016-09-07

787

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。