Hive架构
[toc]
概念
按照官网翻译,Hive是一个使用SQL管理和使用基于分布式存储的数据集的数据仓库工具软件。注意形容词知道了几个特点:
- 使用SQL
- 数据仓库、管理数据集(表)
- 基于Hadoop
Hive的组件包括HCatalog和WebHCat。
- HCatalog是Hadoop的表和存储管理层,它使具有不同数据处理工具(包括Pig和MapReduce)的用户能够更轻松地在网格上读写数据。
- WebHCat提供了一种服务,可用于运行Hadoop MapReduce(或YARN),Pig,Hive作业。还可以使用HTTP(REST样式)接口执行Hive元数据操作。
架构
照例先说下架构图
这里可以看到非常明确的组件关系。数据以文件形式存储在HDFS,执行期间用户通过cli提交DDL 或者query SQL,DDL会与MetaStore交互,其中MetaSto
