Hive作业优化总结(来自一号店)

当选项设定为 true，生成的查询计划会有两个MR Job。第一个 MR Job 中，Map 的输出结果集合会随机分布到 Reduce 中，每个 Reduce 做部分聚合操作，并输出结果，这样处理的结果是相同的 Group By Key 有可能被分发到不同的 Reduce 中，从而达到负载均衡的目的；第二个 MR Job 再根据预处理的数据结果按照 Group By Key 分布到 Reduce 中（这个过程可以保证相同的 Group By Key 被分布到同一个 Reduce 中），最后完成最终的聚合操作。

二、优化常用的手段

•解决数据倾斜问题

•减少job数（合并MapReduce，用Multi-group by）

•设置合理的mapreduce的task数，能有效提升性能。

•数据量较大的情况下，慎用count(distinct)。

•对小文件进行合并，针对文件数据源。

三、优化案例

1、Join原则

将条目少的表/子查询放在 Join的左边。原因是在 Join 操作的 Reduce 阶段，位于 Join左边的表的内容会被加载进内存，将条目少的表放在左边，可以有效减少发生内存溢出的几率。

当一个小表关联一个超大表时，容易发生数据倾斜，可以用MapJoin把小表全部加载到内存在map端进行join，避免reducer处理。

如：SELECT /*+ MAPJOIN(user)*/ l.session_id, u.username from user u join page_views lon (u. id=l.user_id) ;

2、笛卡尔积

当Hive设定为严格模式（hive.mapred.mode=strict）时，不允许在HQL语句中出现笛卡尔积。

当无法躲避笛卡尔积时，采用MapJoin，会在Map端完成Join操作，将Join操作的一个或多个表完全读入内存。

MapJoin的用法是在查询/子查询的SELECT关键字后面添加/*+MAPJOIN(tablelist) */提示优化器转化为MapJoin 。

其中tablelist可以是一个表，或以逗号连接的表的列表。tablelist中的表将会读入内存，应该将小表写在这里

3、控制Map数

同时可执行的map数是有限的。

•通常情况下，作业会通过input的目录产生一个或者多个map任务

•主要的决定因素有： input的文件总个数，input的文件大小。

•举例

a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块（block为128M,6个128m的块和1个12m的块），从而产生7个map数

b) 假设input目录下有3个文件a,b,c,大小分别为10m，20m，130m，那么hadoop会分隔成4个块（10m,20m,128m,2m）,从而产生4个map数

两种方式控制Map数：即减少map数和增加map数

减少map数可以通过合并小文件来实现，这点是对文件数据源来讲。

增加map数的可以通过控制上一个job的reduer数来控制，见5.

4、设置合理reducer个数

•reducer个数的设定极大影响执行效率

•不指定reducer个数的情况下，Hive分配reducer个数基于以下：

参数1：hive.exec.reducers.bytes.per.reducer（默认为1G)

参数2 ：hive.exec.reducers.max（默认为999）

•计算reducer数的公式

•N=min(参数2，总输入数据量/参数1)

set mapred.reduce.tasks=13;

•reduce个数并不是越多越好

同map一样，启动和初始化reduce也会消耗时间和资源；有多少个reduce,就会有多少个输出文件。

Reducer数过多：

生成了很多个小文件，那么如果这些小文件作为下一个任务的输入，则也会出现小文件过多的问题。

Reducer过少：

影响执行效率。

•什么情况下只有一个reduce

很多时候你会发现任务中不管数据量多大，不管你有没有设置调整reduce个数的参数，任务中一直都只有一个reduce任务；

1、除了数据量小于hive.exec.reducers.bytes.per.reducer参数值的情况外

2、没有group by的汇总

3、用了Order by。

5、合并MapReduce操作

• Multi-group by：当从同一个源表进行多次查询时用。

•Multi-group by是Hive的一个非常好的特性，它使得Hive中利用中间结果变得非常方便

•FROM log

• insert overwrite table test1select log.id group by log.id

• insert overwrite table test2select log.name group by log.name

•上述查询语句使用了Multi-group by特性连续group by了2次数据，使用不同的group by key。这一特性可以减少一次MapReduce操作。

6 、LEFT SEMI JOIN

是 IN/EXISTS 子查询的一种更高效的实现。

Hive 当前没有实现 IN/EXISTS 子查询，所以你可以用 LEFT SEMI JOIN 重写你的子查询语句。LEFT SEMI JOIN 的限制是， JOIN 子句中右边的表只能在 ON 子句中设置过滤条件，在 WHERE 子句、SELECT 子句或其他地方过滤都不行。

SELECT a.key,a.value

FROM a

WHERE a.key in

(SELECTb.key

FROM B);

可以被重写为：

SELECT a.key, a.val

FROM a LEFT SEMIJOIN b on (a.key = b.key)

7、Hive注意事项

只支持INSERT/LOAD操作，无UPDATE和DELTE

0.10之前版本没有索引

不支持HAVING操作。

不支持where子句中的子查询

Join只支持等值关联

Not用法

关系数据库：

… where username not like（in） ..

Hive

… where not username like（in）..

Hive中string类型没有长度限制

微信关注我们

原文链接：https://yq.aliyun.com/articles/449903

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Cloudera Hadoop 4系列实战课程(电商业日志流量分析项目)

http://www.ibeifeng.com/goods.php?id=310

2013-05-16

883

】①数据挖掘技术在推荐系统的应用 http://t.cn/zHuFXkV ②Hulu推荐系统构建经验谈 http://t.cn/zHLva1C ③推荐系统实践从入门到精通 http://t.cn/zH30mmB ④Hadoop在大型内容推荐系统中的应用 http://t.cn/zHiAxEC ⑤电商推荐系统迷思 http://t.cn/zH30mm1

2013-06-19

1019

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。