好程序员大数据培训开发之掌握Hive的静态分区与动态分区-低调大师

好程序员大数据培训开发之掌握Hive的静态分区与动态分区

2019-03-28 634

　　分区是hive存放数据的一种方式。将列值作为目录来存放数据，就是一个分区。这样查询时使用分区列进行过滤，只需根据列值直接扫描对应目录下的数据，不扫描其他不关心的分区，快速定位，提高查询效率。分动态和静态分区两种：

　　1.静态分区：若分区的值是确定的，那么称为静态分区。新增分区或者是加载分区数据时，已经指定分区名。

　　createtableifnotexistsday_part1(

　　uidint,

　　unamestring

　　)

　　partitionedby(yearint,monthint)

　　rowformatdelimitedfieldsterminatedby''

　　;

　　##加载数据指定分区

　　loaddatalocalinpath'/root/Desktop/student.txt'intotableday_part1partition(year=2017,month=04);

　　##新增分区指定分区名

　　altertableday_part1addpartition(year=2017,month=1)partition(year=2016,month=12);

　　2.动态分区：分区的值是非确定的，由输入数据来确定

　　2.1动态分区的相关属性：

　　hive.exec.dynamic.partition=true:是否允许动态分区

　　hive.exec.dynamic.partition.mode=strict：分区模式设置

　　strict：最少需要有一个是静态分区

　　nostrict：可以全部是动态分区

　　hive.exec.max.dynamic.partitions=1000：允许动态分区的最大数量

　　hive.exec.max.dynamic.partitions.pernode=100：单个节点上的mapper/reducer允许创建的最大分区

　　2.2动态分区的操作

　　##创建临时表

　　createtableifnotexiststmp(

　　uidint,

　　commentidbigint,

　　recommentidbigint,

　　yearint,

　　monthint,

　　dayint

　　)

　　rowformatdelimitedfieldsterminatedby'';

　　##加载数据

　　loaddatalocalinpath'/root/Desktop/comm'intotabletmp;

　　##创建动态分区表

　　createtableifnotexistsdyp1(

　　uidint,

　　commentidbigint,

　　recommentidbigint

　　)

　　partitionedby(yearint,monthint,dayint)

　　rowformatdelimitedfieldsterminatedby''

　　;

　　##严格模式

　　insertintotabledyp1partition(year=2016,month,day)

　　selectuid,commentid,recommentid,month,dayfromtmp;

　　##非严格模式

　　##设置非严格模式动态分区

　　sethive.exec.dynamic.partition.mode=nostrict;

　　##创建动态分区表

　　createtableifnotexistsdyp2(

　　uidint,

　　commentidbigint,

　　recommentidbigint

　　)

　　partitionedby(yearint,monthint,dayint)

　　rowformatdelimitedfieldsterminatedby'';

　　##为非严格模式动态分区加载数据

　　insertintotabledyp2partition(year,month,day)

　　selectuid,commentid,recommentid,year,month,dayfromtmp;

　　3.分区注意细节

　　(1)、尽量不要是用动态分区，因为动态分区的时候，将会为每一个分区分配reducer数量，当分区数量多的时候，reducer数量将会增加，对服务器是一种灾难。

　　(2)、动态分区和静态分区的区别，静态分区不管有没有数据都将会创建该分区，动态分区是有结果集将创建，否则不创建。

　　(3)、hive动态分区的严格模式和hive提供的hive.mapred.mode的严格模式。

　　hive提供我们一个严格模式：为了阻止用户不小心提交恶意hql

　　hive.mapred.mode=nostrict:strict

　　如果该模式值为strict，将会阻止以下三种查询：

　　(1)、对分区表查询，where中过滤字段不是分区字段。

　　(2)、笛卡尔积join查询，join查询语句，不带on条件或者where条件。

　　(3)、对orderby查询，有orderby的查询不带limit语句。

　　好程序员大数据培训的终极目标是将你培养成一名“复合型”研发人才，让你自己在掌握相关大数据技术的同时，也能够赢得一份高薪职位!好程序员大数据开发采用“T”字形的思维，以大数据的深度为主，以机器学习、云计算等作为宽度，相辅相成。此外好程序员大数据课程定期组织与一线名企的工程师进行面对面的就企业当下的项目讨论与研发，进而验证所学技术的正确方向。

微信关注我们

原文链接：https://yq.aliyun.com/articles/695883

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

好程序员大数据入门学习之Hadoop技术优缺点

好程序员大数据入门学习之Hadoop技术优缺点 (1)Hadoop具有按位存储和处理数据能力的高可靠性。(2)Hadoop通过可用的计算机集群分配数据，完成存储和计算任务，这些集群可以方便地扩展到数以千计的节点中，具有高扩展性。(3)Hadoop能够在节点之间进行动态地移动数据，并保证各个节点的动态平衡，处理速度非常快，具有高效性。(4)Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配，具有高容错性。 Hadoop的缺点(1)Hadoop不适用于低延迟数据访问。(2)Hadoop不能高效存储大量小文件。(3)Hadoop不支持多用户写入并任意修改文件。 Hadoop的核心组件Hadoop自诞生以来，主要出现了Hadoop1、Hadoop2、Hadoop3三个系列多个版本。HDFS和MapReduce是Hadoop1的核心组件，Hadoop生态圈里的很多组件都是基于HDFS和MapReduce发展出来的。在继Hadoop1之后出现了Hadoop2，Hadoop2在Hadoop1的基础上做了改进。相比Hadoop1，Hadoop2的三大核心组件分别是HDFS、Map...

2019-03-28

646

Hadoop启动HDFS进程的时候报错，提示权限不够，具体信息如图所示：localhost: frankxulei@localhost: Permission denied (publickey,password). frankxulei@ubuntu:/usr/local/hadoop$ sbin/start-all.shWARNING: Attempting to start all Apache Hadoop daemons as frankxulei in 10 seconds.WARNING: This is not a recommended production deployment configuration.WARNING: Use CTRL-C to abort.Starting namenodes on [localhost]localhost: frankxulei@localhost: Permission denied (publickey,password).Starting datanodeslocalhost: frankxulei@localhost...

2019-03-28

716

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。