[Hadoop]Hadoop上Data Locality-低调大师

[Hadoop]Hadoop上Data Locality

2016-12-25 787

Hadoop上的Data Locality是指数据与Mapper任务运行时数据的距离接近程度（Data Locality in Hadoop refers to the“proximity” of the data with respect to the Mapper tasks working on the data.）

1. why data locality is imporant?

当数据集存储在HDFS中时，它被划分为块并存储在Hadoop集群中的DataNode上。当在数据集执行MapReduce作业时，各个Mappers将处理这些块（输进行入分片处理）。如果Mapper不能从它执行的节点上获取数据，数据需要通过网络从具有这些数据的DataNode拷贝到执行Mapper任务的节点上（the data needs to be copied over the network from the DataNode which has the data to the DataNode which is executing the Mapper task）。假设一个MapReduce作业具有超过1000个Mapper，在同一时间每一个Mapper都试着去从集群上另一个DataNode节点上拷贝数据，这将导致严重的网络阻塞，因为所有的Mapper都尝试在同一时间拷贝数据（这不是一种理想的方法）。因此，将计算任务移动到更接近数据的节点上是一种更有效与廉价的方法，相比于将数据移动到更接近计算任务的节点上（it is always effective and cheap to move the computation closer to the data than to move the data closer to the computation）。

2. How is data proximity defined?

当JobTracker（MRv1）或ApplicationMaster（MRv2）接收到运行作业的请求时，它查看集群中的哪些节点有足够的资源来执行该作业的Mappers和Reducers。同时需要根据Mapper运行数据所处位置来考虑决定每个Mapper执行的节点（serious consideration is made to decide on which nodes the individual Mappers will be executed based on where the data for the Mapper is located）。

3. Data Local

当数据所处的节点与Mapper执行的节点是同一节点，我们称之为Data Local。在这种情况下，数据的接近度更接近计算（ In this case the proximity of the data is closer to the computation.）。JobTracker（MRv1）或ApplicationMaster（MRv2）首选具有Mapper所需要数据的节点来执行Mapper。

4. Rack Local

虽然Data Local是理想的选择，但由于受限于集群上的资源，并不总是在与数据同一节点上执行Mapper（Although Data Local is the ideal choice, it is not always possible to execute the Mapper on the same node as the data due to resource constraints on a busy cluster）。在这种情况下，优选地选择在那些与数据节点在同一机架上的不同节点上运行Mapper（ In such instances it is preferred to run the Mapper on a different node but on the same rack as the node which has the data.）。在这种情况下，数据将在节点之间进行移动，从具有数据的节点移动到在同一机架上执行Mapper的节点，这种情况我们称之为Rack Local。

5. Different Rack

在繁忙的群集中，有时Rack Local也不可能。在这种情况下，选择不同机架上的节点来执行Mapper，并且将数据从具有数据的节点复制到在不同机架上执行Mapper的节点。这是最不可取的情况。

微信关注我们

原文链接：https://yq.aliyun.com/articles/632209

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

交易系统使用storm,在消息高可靠情况下，如何避免消息重复

概要：在使用storm分布式计算框架进行数据处理时，如何保证进入storm的消息的一定会被处理，且不会被重复处理。这个时候仅仅开启storm的ack机制并不能解决上述问题。那么该如何设计出一个好的方案来解决上述问题? 现有架构背景：本人所在项目组的实时系统负责为XXX的实时产生的交易记录进行处理，根据处理的结果向用户推送不同的信息。实时系统平时接入量每秒1000条，双十一的时候，最大几十万条。原文和作者一起讨论:http://www.cnblogs.com/intsmaze/p/6219878.html 新浪微博：intsmaze刘洋洋哥架构设计： storm设置的超时时间为3分钟；kafkaspout的pending的长度为2000；storm开启ack机制，拓扑程序中如果出现异常则调用ack方法，向spout发出ack消息；每一个交易数据会有一个全局唯一性di。处理流程：交易数据会发送到kafka，然后拓扑A去kafka取数据进行处理，拓扑A中的OnceBolt会先对从kafka取出的消息进行一个唯一性过滤（根据该消息的全局id判断该消息是否存储在redis中，如果有，则说...

2016-12-26

643

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/SunnyYoona/article/details/53889284 1. 什么是Hadoop archives? Hadoop archives是特殊的档案格式。一个Hadoop archive对应一个文件系统目录。 Hadoop archive的扩展名是*.har。Hadoop archive包含元数据（形式是_index和_masterindx）和数据（part-*）文件。_index文件包含了档案中的文件的文件名和位置信息。 2. 如何创建archive? 2.1 格式 hadoop archive -archiveName name -p <parent> <src>* <dest> 2.2 参数（1）由-archiveName选项指定你要创建的archive的名字（name）。比如user_order.har。archive的名字的扩展名应该是*.har （2）-p参数指定文件存档文件（src）的相对路径，举个例子： -p /foo/ba...

2016-12-26

747

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。