Hive内部表和外部表-低调大师

Hive内部表和外部表

2018-12-04 718

我的原创地址：https://dongkelun.com/2018/12/03/hiveInternalAndExternalTables/

前言

总结一下Hive的内部表和外部表以及两者的区别。

1、建表语句

1.1 内部表

平时创建的普通表为内部表

create table `test_internal` (
id string comment 'ID', 
name string comment '名字'
)
comment '测试内部表'
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ;

外部表

带external关键字的为外部表

create external table `test_external` (
id string comment 'ID', 
name string comment '名字'
)
comment '测试外部表'
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ;

仅从建表语句上看，内部表和外部表的区别为是否带有external关键字。

2、location

网上很多博客写的外部表建表语句中都带有location关键字，我这里单独分开来写。

其实不管是内部表还是外部表都可以加location关键字指定hive表的存储路径，当然也可以不加，从这点看是没有区别的。
如果不加location那么不管是内部表还是外部表都会在默认的hive配置的hdfs路径下下新建一个和表名相同的文件夹。
如果加了location指定另外的文件夹，那么在查询时，该文件夹下对应的数据会加载到hive表里。

示例：

2.1 数据

data.txt

002,李四
003,王五

hadoop fs -mkdir -p /tmp/dkl/internal_location
hadoop fs -mkdir -p /tmp/dkl/external_location
hadoop fs -put data.txt /tmp/dkl/internal_location
hadoop fs -put data.txt /tmp/dkl/external_location

2.2 建表

2.2.1 内部表

create table test_internal_location (
id string comment 'ID', 
name string comment '名字'
)
comment '测试内部表location'
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' 
location '/tmp/dkl/internal_location';

2.2.2 外部表

create external table test_external_location (
id string comment 'ID', 
name string comment '名字'
)
comment '测试外部表location'
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' 
location '/tmp/dkl/external_location';

这样查询的时候就可以把data.txt里的数据查出来了，这时再往对应的HDFS路径下put数据，Hive表也会对应增加。

说明：hdfs 文件夹及对应下的数据和建表语句没有先后顺序，建表在前和在后都可以把数据加载出来，如果先建表的话，对应的文件夹如果不存在，则会自动建立文件夹。

3、删除表

内部表和外部表的区别主要体现在删除表，将上面建立的四个表都删掉。

drop table test_internal;
drop table test_external;
drop table test_internal_location;
drop table test_external_location;

看一下对应的hdfs路径有啥变化
hadoop命令

hadoop fs -ls /apps/hive/warehouse/dkl.db
hadoop fs -ls /tmp/dkl

发现外部表test_external文件夹和external_location文件夹都存在，而内部表的两个文件夹都没了，这也就是内部表和外部表的区别：

内部表删除表时，对应的hdfs的路径下的文件会删掉；外部表删除表时，对应的HDFS的路径下的文件则不会删掉，无论是建表是指定location还是不指定location

4、总结

建表时带有external关键字为外部表，否则为内部表
内部表和外部表建表时都可以自己指定location
删除表时，外部表不会删除对应的数据，只会删除元数据信息，内部表则会删除
其他用法是一样的

参考

http://www.aboutyun.com/thread-7458-1-1.html

相关阅读

Hive分区表学习总结

微信关注我们

原文链接：https://yq.aliyun.com/articles/676171

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Elasticsearch 6.1.0 启动过程

开篇这篇文章主要目的是想梳理下elasticserach在启动过程中的核心步骤，宏观上讲解清楚elasticsearch启动过程中都做了哪些事情。原本想通过流程图来进行画，后来网上有人通过xmind来分析整个过程，发现也能够讲解的非常清楚，因此同样采用xmind来自上而下讲解整个过程。启动过程图说明： 1.通过XMind记录ES启动流程的整个过程。 2.阅读顺序从上往下，标红色旗子的部分是核心流程。 3.核心流程我概括为：配置加载；Bootstrap 初始化; Bootstrap setup过程；Bootstrap start过程。 4.每个步骤当中细分下去很多逻辑，这里只讲解能够串联整个过程的逻辑。配置加载过程 Bootstrap 初始化 Elasticsearch的一个重要作用是解析命令参数。执行带 -h 参数的Elasticsearch启动命令。 Elasticsearch的构造函数如下所示，跟帮助信息是一致的。 // elasticsearch启动命令帮助 Elasticsearch() { super("starts elasticsearch", () -&...

2018-12-04

759

之前有一篇文章已经大概的说了一下HBase的基本的概念和内部的一些构成的意思,比如表啊,列族啊之类的,这一篇再简单的说一下HBase的架构数据模型从大到小 namespace表空间:类似RDBMS中的库概念,当你想把一组表去统一的管理的时候可以使用得到,这种抽象为即将推出的多租户相关功能奠定了基础配额管理:限制命名空间可以使用的资源量（即区域，表）。命名空间安全管理:为租户提供另一级别的安全管理。区域服务器组:可以将命名空间/表固定到RegionServers的子集上，从而保证粗略的隔离级别 table表:就是有一个或者多个列族组成,加上之前的代码使用,这个表概念应该很熟了 row行:一个行包括了多个列,这些列通过列族来分类 column family列族:列族是多个列的集合,HBase会尽量的将一个列族的列放入同一个服务器内,这样可以提高存取性能,并且可以批量管理有关联的一堆列,所有的数据属性都是定义在列族上的. column qualifier列:多个列组成一行 cell:一个列中可以存储多个版本的数据,每个版本就成为一个单元格cell timestamp:标识cell的版...

2018-12-05

571

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。