Hive内部表和外部表
我的原创地址:https://dongkelun.com/2018/12/03/hiveInternalAndExternalTables/
前言
总结一下Hive的内部表和外部表以及两者的区别。
1、建表语句
1.1 内部表
平时创建的普通表为内部表
create table `test_internal` ( id string comment 'ID', name string comment '名字' ) comment '测试内部表' ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ;
外部表
带external关键字的为外部表
create external table `test_external` ( id string comment 'ID', name string comment '名字' ) comment '测试外部表' ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ;
仅从建表语句上看,内部表和外部表的区别为是否带有external关键字。
2、location
网上很多博客写的外部表建表语句中都带有location关键字,我这里单独分开来写。
- 其实不管是内部表还是外部表都可以加location关键字指定hive表的存储路径,当然也可以不加,从这点看是没有区别的。
- 如果不加location那么不管是内部表还是外部表都会在默认的hive配置的hdfs路径下下新建一个和表名相同的文件夹。
- 如果加了location指定另外的文件夹,那么在查询时,该文件夹下对应的数据会加载到hive表里。
示例:
2.1 数据
data.txt
002,李四 003,王五
hadoop fs -mkdir -p /tmp/dkl/internal_location hadoop fs -mkdir -p /tmp/dkl/external_location hadoop fs -put data.txt /tmp/dkl/internal_location hadoop fs -put data.txt /tmp/dkl/external_location
2.2 建表
2.2.1 内部表
create table test_internal_location ( id string comment 'ID', name string comment '名字' ) comment '测试内部表location' ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' location '/tmp/dkl/internal_location';
2.2.2 外部表
create external table test_external_location ( id string comment 'ID', name string comment '名字' ) comment '测试外部表location' ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' location '/tmp/dkl/external_location';
这样查询的时候就可以把data.txt里的数据查出来了,这时再往对应的HDFS路径下put数据,Hive表也会对应增加。
说明:hdfs 文件夹及对应下的数据和建表语句没有先后顺序,建表在前和在后都可以把数据加载出来,如果先建表的话,对应的文件夹如果不存在,则会自动建立文件夹。
3、删除表
内部表和外部表的区别主要体现在删除表,将上面建立的四个表都删掉。
drop table test_internal; drop table test_external; drop table test_internal_location; drop table test_external_location;
看一下对应的hdfs路径有啥变化
hadoop命令
hadoop fs -ls /apps/hive/warehouse/dkl.db hadoop fs -ls /tmp/dkl
发现外部表test_external文件夹和external_location文件夹都存在,而内部表的两个文件夹都没了,这也就是内部表和外部表的区别:
内部表删除表时,对应的hdfs的路径下的文件会删掉;外部表删除表时,对应的HDFS的路径下的文件则不会删掉,无论是建表是指定location还是不指定location
4、总结
- 建表时带有external关键字为外部表,否则为内部表
- 内部表和外部表建表时都可以自己指定location
- 删除表时,外部表不会删除对应的数据,只会删除元数据信息,内部表则会删除
- 其他用法是一样的
参考
相关阅读
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Elasticsearch 6.1.0 启动过程
开篇 这篇文章主要目的是想梳理下elasticserach在启动过程中的核心步骤,宏观上讲解清楚elasticsearch启动过程中都做了哪些事情。 原本想通过流程图来进行画,后来网上有人通过xmind来分析整个过程,发现也能够讲解的非常清楚,因此同样采用xmind来自上而下讲解整个过程。 启动过程图 说明: 1.通过XMind记录ES启动流程的整个过程。 2.阅读顺序从上往下,标红色旗子的部分是核心流程。 3.核心流程我概括为:配置加载;Bootstrap 初始化; Bootstrap setup过程;Bootstrap start过程。 4.每个步骤当中细分下去很多逻辑,这里只讲解能够串联整个过程的逻辑。 配置加载过程 Bootstrap 初始化 Elasticsearch的一个重要作用是解析命令参数。 执行带 -h 参数的Elasticsearch启动命令。 Elasticsearch的构造函数如下所示,跟帮助信息是一致的。 // elasticsearch启动命令帮助 Elasticsearch() { super("starts elasticsearch", () -&...
- 下一篇
HBase内部结构
之前有一篇文章已经大概的说了一下HBase的基本的概念和内部的一些构成的意思,比如表啊,列族啊之类的,这一篇再简单的说一下HBase的架构 数据模型从大到小 namespace表空间:类似RDBMS中的库概念,当你想把一组表去统一的管理的时候可以使用得到,这种抽象为即将推出的多租户相关功能奠定了基础 配额管理:限制命名空间可以使用的资源量(即区域,表)。 命名空间安全管理:为租户提供另一级别的安全管理。 区域服务器组:可以将命名空间/表固定到RegionServers的子集上,从而保证粗略的隔离级别 table表:就是有一个或者多个列族组成,加上之前的代码使用,这个表概念应该很熟了 row行:一个行包括了多个列,这些列通过列族来分类 column family列族:列族是多个列的集合,HBase会尽量的将一个列族的列放入同一个服务器内,这样可以提高存取性能,并且可以批量管理有关联的一堆列,所有的数据属性都是定义在列族上的. column qualifier列:多个列组成一行 cell:一个列中可以存储多个版本的数据,每个版本就成为一个单元格cell timestamp:标识cell的版...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS7,CentOS8安装Elasticsearch6.8.6
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS7设置SWAP分区,小内存服务器的救世主
- Docker快速安装Oracle11G,搭建oracle11g学习环境