Hive基础(1)-低调大师

Hive基础(1)

2016-04-16 663

Hive的HQL(2)

1. Hive并不是分布式的，它独立于机器之外，类似于Hadoop的客户端。

2. 元数据和数据的区别，前者如表名、列名、字段名等。

3. Hive的三种安装方式

内嵌模式，元数据服务和Hive服务运行在同一个JVM中，同时使用内嵌的Derby数据库作为元数据存储，该模式只能支持同时最多一个用户打开Hive会话。
本地模式，元数据服务和Hive服务运行在同一个JVM中，采用了外置的MySQL作为元数据存储，该种方式支持多个用户同时访问Hive。
远程模式，元数据服务和Hive服务运行在不同的进程内，这样做的好处是，数据库层可以完全地置于防火墙之后，客户端则不需要数据库验证。
推荐，生产环境中，使用本地模式、远程模式。

4. Hive不支持行级别的更新、插入或者删除操作，并且不支持事物。Hive不能做OLTP的“联机”部分，所以对Hive更适合离线计算，对于实时性要求很高的可以选择HBase或者Impala。

5. Hive和关系型数据库的区别

compare	Hive	RMDBS
查询语言	HQL	SQL
数据存储位置	HDFS	Raw Device或者Local FS
数据格式	用户定义	系统决定
数据更新	不支持	支持
索引	无	有
执行	MapReduce	Executor
执行延迟	高	低
可扩展性	高	低
数据规模	大	小

6. Hive的数据类型与存储格式

数据类型
- 基本数据类型：整型、浮点型、布尔型等
- 复杂数据类型（集合）：STRUCT、MAP、ARRAY
存储格式
- TEXTFILE(default)
- 不压缩、磁盘开销大、数据解析开销大
- SEQUENCEFILE
- 使用方便、可分割、可压缩、按行切分
- RCFILE
- 行列存储相结合，首先，将数据按行分块，保证同一条记录在一个块上，避免读一条记录需要读取多个块。其次，块上的数据按照列式存储，有利于数据压缩和快速地进行行列存取，也就是“先按水平划分再按垂直划分”
- 自定义
- 用户可通过实现InputFormat和OutputFormat来自定义输入输出格式。

微信关注我们

原文链接：https://yq.aliyun.com/articles/70629

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

MapReduce的编程思想(1) MapReduce的过程(2) 1. MapReduce从输入到输出一个MapReduce的作业经过了input、map、combine、reduce、output五个阶段。其中combine阶段不一定发生，map输出的中间结果被分发到reduce的过程称为shuffle（数据混洗）。 shuffle阶段会发生copy（复制）和sort（排序）。 Reduce任务默认在Map任务数量完成5%才开始启动。 2. input HDFS上的文件作为MapReduce的输入，org.apache.hadoop.mapreduce.InputFormat类的子类FileInputFormat类将作为输入的HDFS上的文件切分形成输入分片（InputSplit），每个InputSplit将作为一个Map任务的输入，再将InputSplit解析为键值对。 InputSplit只是对数据逻辑上的分片，不会在磁盘上将文件切分、存储。 - 元数据信息由文件路径、文件开始的位置、文件结束的位置、数据块所在的host4部分组成。 InputSplit的数量=文件大小/I...

2016-04-17

643

Hive基础(1) Hive的HQL(2) 1. HQL的数据定义，HQL是一种SQL方言，支持绝大部分SQL-92标准。但是和SQL的差异为：不支持行级别的操作，不支持事务等。HQL的语法接近于MySQL。 2. Hive的数据库，本质仅仅是个表的目录或者命名空间。一般用数据库将生产表组织成逻辑组。 3. Hive中的表–管理表，创建表时未指定的话为默认为管理表。当删除管理表时，Hive将删除管理表中的数据和元数据。 CREATE TABLE IF NOT EXISTS test.student ( name STRING COMMENT 'student name', age INT COMMENT 'student age', cource ARRAY<STRING>, body MAP<STRING,FLOAT>, address STRUCT<STRING,CITY:STRING,STATE:STRING>) COMMENT 'the info of student' ROW FORMAT DELIMITED FIELDS TERMINAT...

2016-04-17

637

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Hive基础(1)

Hive基础(1)

Hive的HQL(2)

1. Hive并不是分布式的，它独立于机器之外，类似于Hadoop的客户端。

2. 元数据和数据的区别，前者如表名、列名、字段名等。

3. Hive的三种安装方式

4. Hive不支持行级别的更新、插入或者删除操作，并且不支持事物。Hive不能做OLTP的“联机”部分，所以对Hive更适合离线计算，对于实时性要求很高的可以选择HBase或者Impala。

5. Hive和关系型数据库的区别

6. Hive的数据类型与存储格式

MapReduce的过程(2)

Hive的HQL(2)

相关文章

发表评论

资源下载

优质分享App

Nacos

Spring

Rocky Linux

欢迎您来访！