Hive Tunning（三）最佳实践-低调大师

Hive Tunning（三）最佳实践

2016-09-07 750

在上一讲的基础上，我们来做来一个实际的例子来展示如何在实操中进行高效的hive查询作业。

（1）首先我们建立一个表

CREATE EXTERNAL TABLE pos_staging( 
txnid STRING, 
txntime STRING, 
givenname STRING, 
lastname STRING, 
postalcode STRING, 
storeid STRING, 
indl STRING, 
productid STRING, 
purchaseamount FLOAT, 
creditcard STRING 
)ROW FORMAT DELIMITED FIELDS TERMINATED BY '|' 
LOCATION '/user/hdfs/staging_data/pos_staging';

我们建立一张外部表是为了初始化或者加载mapreduce或者pig作业产生的元数据，然后我们自己建立一张优化的表。

（2）建立调优表的时候，我们就要考虑使用哪种分区模式，比如按时间分区。

cf54e18c32b8856c4b04f71c47dd359c8bae5bac

以下是两个关于动态分区的参数：

所有节点的动态分区的最大数以及每个节点的动态分区的最大数

hive.exec.max.dynamic.partitions=1000 
hive.exec.max.dynamic.partitions.pernode=100

（3）建立调优表

CREATE TABLE fact_pos 
( 
txnid STRING, 
txntime STRING, 
givenname STRING, 
lastname STRING, 
postalcode STRING, 
storeidSTRING, 
indl STRING, 
productid STRING,

purchaseamountFLOAT, 
creditcardSTRING 
) PARTITIONED BY (part_dt STRING)! 
CLUSTERED BY (txnid) 
SORTED BY (txnid) 
INTO 24 BUCKETS 
STORED AS ORC tblproperties("orc.compress"="SNAPPY");

CLUSTERED 和SORTED 使用都是同一个字段，它就是连接的时候需要使用的字段。

BUCKETS也出现了，前面一直不理解的概念，现在出现了还分了24个。

（4）把数据插入到调优表中

FROM pos_staging 
INSERT OVERWRITE TABLE fact_pos 
PARTITION (part_dt) 
SELECT 
txnid, 
txntime, 
givenname, 
lastname, 
postalcode, 
storeid, 
indl, 
productid, 
purchaseamount, 
creditcard, 
concat(year(txntime),month(txntime)) as part_dt 
SORT BY productid;

语句中使用了前面教的自动分区的语句，按照年月自动分区。

hadoop fs-setrep-R –w 5 /apps/hive/warehouse/fact_pos

上面的命令当中是个hdfs中存数的fact_pos表增加备份，因为hdfs的数据是存得很分散的，增加备份因为会使得节点上的数据增多，然后查询的时候，hive

从本地直接就可以获取到的数据的几率提高，增快查询速度。

当然考虑到空间的问题，可以减少一下备份的数量。

上述流程我们也可以把它放到oozie中自动执行。

。。。又一个熟悉的词出现了。

在hdfs-site.xml或者Ambari settings for HDFS, 设置完要重启。

dfs.block.local-path-access.user=hdfs 
dfs.client.read.shortcircuit=true 
dfs.client.read.shortcircuit.skip.checksum=false

51b1e3086c8875a7e62399a170bdb80efcbdbbad

开启了这个东东有什么作用呢？当数据块在本地的时候，它可以不需要开启一个端口来读，可以直接访问，就像图中的闪电那样。

（5）执行查询

set hive.mapred.reduce.tasks.speculative.execution=false; 
set io.sort.mb=300; 
set mapreduce.reduce.input.limit=-1; 
select productid, ROUND(SUM(purchaseamount),2) as total 
from fact_pos 
where part_dt between ‘201210’ and ‘201212’ 
group by productid 
order by total desc 
limit 100;

查询之前先对查询设置相应的运行参数。

微信关注我们

原文链接：https://yq.aliyun.com/articles/60198

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Spark ListenerBus 和 MetricsSystem 体系分析

前言监控是一个大系统完成后最重要的一部分。Spark整个系统运行情况是由ListenerBus以及MetricsSystem 来完成的。这篇文章重点分析他们之间的工作机制以及如何通过这两个系统完成更多的指标收集。 ListenerBus 是如何工作的 Spark的事件体系是如何工作的呢？我们先简要描述下，让大家有个大概的了解。首先，大部分类都会引入一个对象叫listenerBus，这个类具体是什么得看实现，但是都一定继承自org.apache.spark.util.ListenerBus. 假设我们要提交一个任务集。这个动作可能会很多人关心，我就是使用listenerBus把Event发出去，类似下面的第二行代码。 def submitJobSet(jobSet: JobSet) { listenerBus.post(StreamingListenerBatchSubmitted(jobSet.toBatchInfo)) jobSet.jobs.foreach(job => jobExecutor.execute(new JobHandler(job))) logInfo("...

2016-09-07

677

前言新的内存模型是在这个Jira提出的，JIRA-10000，对应的设计文档在这：unified-memory-management。贴出这个文档是为了让大家可以更深入的了解这个新的模型的设计动机，社区想到的解决方案，以及经过对比，最终选择了哪个方案。当然我在文章中也会有所提及，但这个不会是本文的重点。 Memory Manager 在Spark 1.6 版本中，memoryManager 的选择是由 spark.memory.useLegacyMode=false 决定的。如果采用1.6之前的模型，这会使用StaticMemoryManager来管理，否则使用新的。 UnifiedMemoryManager 我们先看看1.6之前，对于一个Executor,内存都有哪些部分构成： ExecutionMemory。这片内存区域是为了解决 shuffles,joins, sorts and aggregations 过程中为了避免频繁IO需要的buffer。通过spark.shuffle.memoryFraction(默认 0.2) 配置。 StorageMemory。这片内存区域是...

2016-09-07

795

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。