您现在的位置是:首页 > 文章详情

Hive内部表和外部表

日期:2018-12-04点击:407
版权声明:本文由董可伦首发于https://dongkelun.com,非商业转载请注明作者及原创出处。商业转载请联系作者本人。 https://blog.csdn.net/dkl12/article/details/84845338

我的原创地址:https://dongkelun.com/2018/12/03/hiveInternalAndExternalTables/

前言

总结一下Hive的内部表和外部表以及两者的区别。

1、建表语句

1.1 内部表

平时创建的普通表为内部表

create table `test_internal` ( id string comment 'ID', name string comment '名字' ) comment '测试内部表' ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ; 

外部表

带external关键字的为外部表

create external table `test_external` ( id string comment 'ID', name string comment '名字' ) comment '测试外部表' ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ; 

仅从建表语句上看,内部表和外部表的区别为是否带有external关键字。

2、location

网上很多博客写的外部表建表语句中都带有location关键字,我这里单独分开来写。

  • 其实不管是内部表还是外部表都可以加location关键字指定hive表的存储路径,当然也可以不加,从这点看是没有区别的。
  • 如果不加location那么不管是内部表还是外部表都会在默认的hive配置的hdfs路径下下新建一个和表名相同的文件夹。
  • 如果加了location指定另外的文件夹,那么在查询时,该文件夹下对应的数据会加载到hive表里。

示例:

2.1 数据

data.txt

002,李四 003,王五 
hadoop fs -mkdir -p /tmp/dkl/internal_location hadoop fs -mkdir -p /tmp/dkl/external_location hadoop fs -put data.txt /tmp/dkl/internal_location hadoop fs -put data.txt /tmp/dkl/external_location 

2.2 建表

2.2.1 内部表

create table test_internal_location ( id string comment 'ID', name string comment '名字' ) comment '测试内部表location' ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' location '/tmp/dkl/internal_location'; 

2.2.2 外部表

create external table test_external_location ( id string comment 'ID', name string comment '名字' ) comment '测试外部表location' ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' location '/tmp/dkl/external_location'; 

这样查询的时候就可以把data.txt里的数据查出来了,这时再往对应的HDFS路径下put数据,Hive表也会对应增加。

说明:hdfs 文件夹及对应下的数据和建表语句没有先后顺序,建表在前和在后都可以把数据加载出来,如果先建表的话,对应的文件夹如果不存在,则会自动建立文件夹。

3、删除表

内部表和外部表的区别主要体现在删除表,将上面建立的四个表都删掉。

drop table test_internal; drop table test_external; drop table test_internal_location; drop table test_external_location; 

看一下对应的hdfs路径有啥变化
hadoop命令

hadoop fs -ls /apps/hive/warehouse/dkl.db hadoop fs -ls /tmp/dkl 

发现外部表test_external文件夹和external_location文件夹都存在,而内部表的两个文件夹都没了,这也就是内部表和外部表的区别:

内部表删除表时,对应的hdfs的路径下的文件会删掉;外部表删除表时,对应的HDFS的路径下的文件则不会删掉,无论是建表是指定location还是不指定location

4、总结

  • 建表时带有external关键字为外部表,否则为内部表
  • 内部表和外部表建表时都可以自己指定location
  • 删除表时,外部表不会删除对应的数据,只会删除元数据信息,内部表则会删除
  • 其他用法是一样的

参考

相关阅读

原文链接:https://yq.aliyun.com/articles/676171
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章