hive优化--增加减少map数-低调大师

hive优化--增加减少map数

2017-11-29 761

如何合并小文件，减少map数？
假设一个 SQL 任务：
Select count(1) from popt_tbaccountcopy_mes where pt = ‘2012-07-04’;
该任务的 inputdir /group/p_sdo_data/p_sdo_data_etl/pt/popt_tbaccountcopy_mes/pt=2012-07-04
共有 194 个文件，其中很多是远远小于 128m 的小文件，总大小 9G ，正常执行会用 194 个 map 任务。
Map 总共消耗的计算资源： SLOTS_MILLIS_MAPS= 623,020

我通过以下方法来在 map 执行前合并小文件，减少 map 数：
set mapred.max.split.size=100000000;
set mapred.min.split.size.per.node=100000000;
set mapred.min.split.size.per.rack=100000000;
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
再执行上面的语句，用了 74 个 map 任务， map 消耗的计算资源： SLOTS_MILLIS_MAPS= 333,500
对于这个简单 SQL 任务，执行时间上可能差不多，但节省了一半的计算资源。
大概解释一下， 100000000 表示 100M, set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; 这个参数表示执行前进行小文件合并，
前面三个参数确定合并文件块的大小，大于文件块大小 128m 的，按照 128m 来分隔，小于 128m, 大于 100m 的，按照 100m 来分隔，把那些小于 100m 的（包括小文件和分隔大文件剩下的），
进行合并 , 最终生成了 74 个块。

如何适当的增加 map 数？

当 input 的文件都很大，任务逻辑复杂， map 执行非常慢的时候，可以考虑增加 Map 数，来使得每个 map 处理的数据量减少，从而提高任务的执行效率。
假设有这样一个任务：
Select data_desc,
count(1),
count(distinct id),
sum(case when …),
sum(case when ...),
sum(…)
from a group by data_desc
如果表 a 只有一个文件，大小为 120M ，但包含几千万的记录，如果用 1 个 map 去完成这个任务，肯定是比较耗时的，这种情况下，我们要考虑将这一个文件合理的拆分成多个，
这样就可以用多个 map 任务去完成。
set mapred.reduce.tasks=10;
create table a_1 as
select * from a
distribute by rand(123);

这样会将 a 表的记录，随机的分散到包含 10 个文件的 a_1 表中，再用 a_1 代替上面 sql 中的 a 表，则会用 10 个 map 任务去完成。
每个 map 任务处理大于 12M （几百万记录）的数据，效率肯定会好很多。

看上去，貌似这两种有些矛盾，一个是要合并小文件，一个是要把大文件拆成小文件，这点正是重点需要关注的地方，
根据实际情况，控制 map 数量需要遵循两个原则：使大数据量利用合适的 map 数；使单个 map 任务处理合适的数据量；

本文转自 yntmdr 51CTO博客，原文链接：http://blog.51cto.com/yntmdr/1740587，如需转载请自行联系原作者

微信关注我们

原文链接：https://yq.aliyun.com/articles/511052

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

日均数十亿请求！京东评价系统海量数据存储高可用设计

京东的商品评论目前已达到数十亿条，每天提供的服务调用也有数十亿次，而这些数据每年还在成倍增长，而数据存储是其中最重要的部分之一，接下来就介绍下京东评论系统的数据存储是如何设计的。整体数据存储包括基础数据存储、文本存储、数据索引、数据缓存几个部分。基础数据存储基础数据存储使用MySQL，因用户评论为文本信息，通常包含文字、字符等，占用的存储空间比较大，为此MySQL作为基础数据库只存储非文本的评论基础信息，包括评论状态、用户、时间等基础数据，以及图片、标签、点赞等附加数据。而不同的数据又可选择不同的库表拆分方案，参考如下：评论基础数据按用户ID进行拆库并拆表；图片及标签处于同一数据库下，根据商品编号分别进行拆表；其它的扩展信息数据，因数据量不大、访问量不高，处理于同一库下且不做分表即可。因人而异、因系统而异，根据不同的数据场景选择不同存储方案，有效利用资源的同时还能解决数据存储问题，为高性能、高可用服务打下坚实基础。文本存储文本存储使用了MongoDB、HBase，选择NoSQL而非MySQL，一是减轻了MySQL存储压力，释放MySQL，庞大的存储也有了可靠...

2017-11-29

519

实验背景图书馆Q是一家大型图书馆，图书馆藏书众多，纸质图书600多万册，电子图书7000多万册，总数有八千多万册，这些图书之前都是人工检索维护的，现在需要做一个系统来存储管理这些图书信息。需求如下：图书总量目前八千多万册，考虑到未来二十年的增长，需要系统能支持一亿的存储量。图书信息很重要，不能接受丢失发生。图书的名字和作者名字需要支持模糊搜索。每本书的属性最多有一百多个，且不固定，不同类型的图书的属性列差异较大。且未来可能会新增属性列。根据上面这些需求特点，要完成这个管理系统，需要两类系统支持：分布式NoSQL数据库：解决两亿存储量的问题，解决属性列较多且不固定的问题，解决可靠性要求高的问题。搜索系统：解决固定列模糊搜索的需求。如果使用阿里云产品，那么对应的产品就是： Table Store：分布式NoSQL数据库。 Elastics

2017-11-29

754

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。