Hive分区表学习总结-低调大师

Hive分区表学习总结

2018-12-03 555

我的原创地址：https://dongkelun.com/2018/12/02/hivePartitionTable/

前言

用了这么久的Hive，而没有认真的学习和使用过Hive的分区，现在学习记录一下。

分区表一般在数据量比较大，且有明确的分区字段时使用，这样用分区字段作为查询条件查询效率会比较高。

Hive分区分为静态分区和动态分区

1、建表语句

先用一个有分区字段的分区表进行学习，静态分区和动态分区的建表语句是一样的。

create table test_partition (
id string comment 'ID', 
name string comment '名字'
)
comment '测试分区'
partitioned by (year int comment '年')
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ;

2、插入语句

静态分区和动态分区的插入数据的语句是不一样的，所以分开

2.1 静态分区

静态分区是在语句中指定分区字段为某个固定值，多次重复插入数据是为了看看数据如何在hdfs上存储的。

2.1.1 insert into

insert into table test_partition partition(year=2018) values ('001','张三');
insert into table test_partition partition(year=2018) values ('001','张三');
insert into table test_partition partition(year=2018) values ('002','李四');

2.1.2 load data

data.txt

002,李四
003,王五

load data local inpath '/root/dkl/data/data.txt' into table test_partition partition (year =2018);
load data local inpath '/root/dkl/data/data.txt' into table test_partition partition (year =2018);
load data local inpath '/root/dkl/data/data.txt' into table test_partition partition (year =2017);

2.1.3 查询及结果

2.1.4 hdfs存储形式

分区2018的路径为

/apps/hive/warehouse/dkl.db/test_partition/year=2018

/apps/hive/warehouse 为hive的仓库路径
dkl.db dkl为数据库名称
test_partition为表名
year为分区字段名

2.2 动态分区

2.2.1 insert into

insert into table test_partition partition(year) values ('001','张三',2016);

动态分区默认不开启，执行上面的语句会报错：

insert into table test_partition partition(year) values ('001','张三',2016);
FAILED: SemanticException [Error 10096]: Dynamic partition strict mode requires at least one static partition column. To turn this off set hive.exec.dynamic.partition.mode=nonstrict

开启：

set hive.exec.dynamic.partition.mode=nonstrict;

然后再执行就可以了

注：上面的命令是临时生效，退出hive重新进hive需要重新执行上面的命令，才能动态分区

2.2.2 load data

不能使用load data进行动态分区插入
data.txt

002,李四,2015
003,王五,2014

load data local inpath '/root/dkl/data/data.txt' into table test_partition partition (year);

hive> load data local inpath '/root/dkl/data/data.txt' into table test_partition partition (year);
FAILED: NullPointerException null

可以使用另一种方法解决

首先创建没有分区的表

create table test (
id string comment 'ID', 
name string comment '名字',
year int comment '年'
)
comment '测试'
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ;

先将数据load进test表

load data local inpath '/root/dkl/data/data.txt' into table test;

然后从表test，动态分区插入test_partition中

insert into table test_partition partition(year)  select * from test;

如果后面select具体字段的话，需要保证顺序一致，把分区字段放在最后。

insert into table test_partition partition(year)  select id,name,year from test;

3、查看分区信息

show  partitions test_partition;

hive> show  partitions test_partition;
OK
year=2017
year=2018
Time taken: 0.719 seconds, Fetched: 2 row(s)

4、添加分区字段

查了一下，不能添加新的分区字段

4.1 添加新分区

alter table test_partition add  partition (year=2012);

这样就会新建对应的hdfs路径下一个year=2012的文件夹

当然也可以指定localtion,这样就不会在默认的路径下建立文件夹了

alter table test_partition add  partition (year=2010) location '/tmp/dkl';

这样如果/tmp/dkl文件夹不存在的话就会新建文件夹，如果存在就会把该文件夹下的所有的文件加载到Hive表，有一点需要注意，如果删除该分区的话，对应的文件夹也会删掉，删除语法请参考后面的第6部分。

4.2 添加非分区字段

alter table test_partition add columns(age int);

这样新加的字段是在非分区字段的最后，在分区字段之前

不过这里有一个bug，就是往表里新插入数据后，新增的age字段查询全部显示为NULL（其实数据已经存在）：

新增加的分区是不存在这个bug的，比如之前没有year=2011这个分区，那么新增的话不会存在bug
分区在添加age字段之前已存在（即使该分区下没有任何数据），bug存在
解决方法：
对已存在的分区执行下面的sql即可,以分区2018为例

alter table test_partition partition(year=2018) add columns(age int);

5、多个分区字段

以两个分区字段为例

5.1 建表

create table test_partition2 (
id string comment 'ID', 
name string comment '名字'
)
comment '测试两个分区'
partitioned by (year int comment '年',month int comment '月')
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ;

5.2 HDFS存储格式

看一下多个分区的的表如何在HDFS上存储的，用静态分区的形式插入一条记录：

insert into table test_partition2 partition(year=2018,month=12) values ('001','张三');

/apps/hive/warehouse/dkl.db/test_partition2/year=2018/month=12

6、删除分区

只能删除某个分区，如删除分区2018，而不能删除整个分区year字段。

6.1 单分区表

alter table test_partition drop partition(year=2018);

6.2 多分区表

6.2.1 删除year=2018,month=12

alter table test_partition2 drop partition(year=2018,month=12);

6.2.2 删除year=2018

year=2018所有的月份都会删除

alter table test_partition2 drop partition(year=2018);

6.2.3 删除month=10

所有月份等于10的分区都会删除，无论year=2018,还是year=2017…

alter table test_partition2 drop partition(month=10);

参考

相关阅读

Hive内部表和外部表

微信关注我们

原文链接：https://yq.aliyun.com/articles/676172

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

java B2B2C电子商务平台分析之十三-----Spring Cloud Zipkin

Zipkin是什么Zipkin分布式跟踪系统；它可以帮助收集时间数据，解决在microservice架构下的延迟问题；它管理这些数据的收集和查找；Zipkin的设计是基于谷歌的Google Dapper论文。愿意了解源码的朋友直接求求交流分享技术：二一四七七七五六三三每个应用程序向Zipkin报告定时数据，Zipkin UI呈现了一个依赖图表来展示多少跟踪请求经过了每个应用程序；如果想解决延迟问题，可以过滤或者排序所有的跟踪请求，并且可以查看每个跟踪请求占总跟踪时间的百分比。为什么使用Zipkin随着业务越来越复杂，系统也随之进行各种拆分，特别是随着微服务架构和容器技术的兴起，看似简单的一个应用，后台可能有几十个甚至几百个服务在支撑；一个前端的请求可能需要多次的服务调用最后才能完成；当请求变慢或者不可用时，我们无法得知是哪个后台服务引起的，这时就需要解决如何快速定位服务故障点，Zipkin分布式跟踪系统就能很好的解决这样的问题。 Zipkin原理针对服务化应用全链路追踪的问题，Google发表了Dapper论文，介绍了他们如何进行服务追踪分析。其基本思路是在服务调用的请求和响应中...

2018-12-04

540

Spark 触发Job提交更多资源 github: https://github.com/opensourceteams/spark-scala-maven csdn(汇总视频在线看): https://blog.csdn.net/thinktothings/article/details/84726769 youtube 视频说明 Spark 触发Job提交(youtube视频) : https://youtu.be/X49RIqz2AjM bilibili 视频说明 Spark 触发Job提交(bilibili视频) : https://www.bilibili.com/video/av37445008/ 客户端源码 github: https://github.com/opensourceteams/spark-scala-maven BaseScalaSparkContext.scala package com.opensource.bigdata.spark.standalone.base import org.apache.spark.{SparkConf, SparkC...

2018-12-04

606

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。