一脸懵逼学习Hive（数据仓库基础构架）-低调大师

一脸懵逼学习Hive（数据仓库基础构架）

2017-10-17 606

Hive是什么？其体系结构简介*
Hive的安装与管理*
HiveQL数据类型，表以及表的操作*
HiveQL查询数据***
Hive的Java客户端**

Hive的自定义函数UDF*

1：什么是Hive（一）：
　　（1）Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL ），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 QL ，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。
　　（2）Hive是SQL解析引擎，它将SQL语句转译成M/R Job然后在Hadoop执行。
　（3）Hive的表其实就是HDFS的目录/文件，按表名把文件夹分开。如果是分区表，则分区值是子文件夹，可以直接在M/R Job里使用这些数据。
2：Hive的系统架构：
　　（1）用户接口，包括 CLI，JDBC/ODBC，WebUI（用户接口主要有三个：CLI，JDBC/ODBC和 WebUI：）；

　　　　　 CLI，即Shell命令行；
　　　　JDBC/ODBC 是 Hive 的Java，与使用传统数据库JDBC的方式类似；
　　　　WebGUI是通过浏览器访问 Hive；
　　（2）元数据存储，通常是存储在关系数据库如 mysql, derby 中；

　　　　　 Hive 将元数据存储在数据库中(metastore)，目前只支持 mysql、derby。Hive 中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等；
　　（3）解释器、编译器、优化器、执行器；

　　　　　　解释器、编译器、优化器完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划（plan）的生成。生成的查询计划存储在 HDFS 中，并在随后有 MapReduce 调用执行；
　　（4）Hadoop：用 HDFS 进行存储，利用 MapReduce 进行计算；
　　　　 Hive 的数据存储在 HDFS 中，大部分的查询由 MapReduce 完成（包含 * 的查询，比如 select * from table 不会生成 MapRedcue 任务）
3：Hive的安装：
　　（1）把hive-0.9.0.tar.gz复制到/usr/local
　　（2）解压hive-0.9.0.tar.gz与重命名
　　　　　#cd /usr/local
　　　　　#tar -zxvf hive-0.9.0.tar.gz
　　　　   #mv hive-0.9.0 hive
　　（3）修改/etc/profile文件。
　　　　#vi /etc/profile
　　　　增加
　　　　export HIVE_HOME=/usr/local/hive
　　　　修改
　　　　export PATH=$JAVA_HOME/bin:$PATH:$HADOOP_HOME/bin:$HIVE_HOME/bin
　　　　保存退出
　　　　#source /etc/profile
　　（4）cd $HIVE_HOME
　　　　 mv hive-env.sh.template hive-env.sh
　　　　 mv hive-default.xml.template hive-site.xml
　　　　    修改hadoop的hadoop-env.sh(否则启动hive汇报找不到类的错误)
　　　　   　　export HADOOP_CLASSPATH=.:$CLASSPATH:$HADOOP_CLASSPATH:
   　　　   　　$HADOOP_HOME/bin
　　　　修改$HIVE_HOME/bin的hive-config.sh，增加以下三行
　　　　　　export JAVA_HOME=/usr/local/jdk
　　　　　　export HIVE_HOME=/usr/local/hive
　　　　　　export HADOOP_HOME=/usr/local/hadoop
　　（5）启动
　　　　#hive
　　　　hive>show tables;
　　　　hive>create table test(id int,name string);
　　　　hive>quit;

　　　　观察：#hadoop fs -ls /user/hive
　　　　参数：hive.metastore.warehouse.dir
4：Hive的metastore：

　　（1）metastore是hive元数据的集中存放地。metastore默认使用内嵌的derby数据库作为存储引擎；
　　（2）Derby引擎的缺点：一次只能打开一个会话；
　　（3）使用Mysql作为外置存储引擎，多用户同时访问；
5：Hive的安装：
　　配置MySQL的metastore
　　（1）上传mysql-connector-java-5.1.10.jar到$HIVE_HOME/lib
　　（2）登录MYSQL，创建数据库hive
　　　　#mysql -uroot -padmin
　　　　mysql>create database hive;
　　　　mysql>GRANT all ON hive.* TO root@'%' IDENTIFIED BY 'admin';
　　　　mysql>flush privileges;
　　　　mysql>set global binlog_format='MIXED';
　　（3）把mysql的数据库字符类型改为latin1
　　（4）修改$HIVE_HOME/conf/hive-site.xml

<property>
    <name>javax.jdo.option.ConnectionURL</name>
    <value>jdbc:mysql://hadoop0:3306/hive?createDatabaseIfNotExist=true</value>
</property>
<property>
    <name>javax.jdo.option.ConnectionDriverName</name>
    <value>com.mysql.jdbc.Driver</value>
</property>
<property>
    <name>javax.jdo.option.ConnectionUserName</name>
    <value>root</value>
</property>
<property>
    <name>javax.jdo.option.ConnectionPassword</name>
    <value>admin</value>
</property>

6：Hive运行模式：
　　（1）Hive的运行模式即任务的执行环境
　　（2）分为本地与集群两种
　　　　我们可以通过mapred.job.tracker 来指明
　　　　设置方式：
　　　　hive > SET mapred.job.tracker=local
7：Hive的启动方式：
　　（1）、hive 命令行模式，直接输入#/hive/bin/hive的执行程序，或者输入 #hive --service cli
　　（2）、 hive web界面的 (端口号9999) 启动方式
　　　　#hive --service hwi &
　　　　用于通过浏览器来访问hive
　　　　http://hadoop0:9999/hwi/
　　（3）、 hive 远程服务 (端口号10000) 启动方式
　　　　#hive --service hiveserver &
8：Hive与传统数据库：

9：Hive的数据类型：
　　（1）基本数据类型：
　　　　tinyint/smallint/int/bigint
　　　　float/double
　　　　boolean
　　　　string
　　（2）复杂数据类型：
　　　　Array/Map/Struct
　　（3）没有date/datetime
10：Hive的数据存储：
　　（1）Hive的数据存储基于Hadoop HDFS；
　　（2）Hive没有专门的数据存储格式；
　　（3）存储结构主要包括：数据库、文件、表、视图；
　　（4）Hive默认可以直接加载文本文件（TextFile），还支持sequence file 、RC file；
　　（5）创建表时，指定Hive数据的列分隔符与行分隔符，Hive即可解析数据；
11：Hive的数据模型-数据库：
　　（1）类似传统数据库的DataBase
　　（2）默认数据库"default"
　　　　使用#hive命令后，不使用hive>use <数据库名>，系统默认的数据库。可以显式使用hive> use default;

　　　　创建一个新库
　　　　hive > create database test_dw;
12：Hive的数据模型-表：
　　Table 内部表
　　Partition 分区表
　　External Table 外部表
　　Bucket Table 桶表
13：Hive的数据模型-内部表：
　　（1）与数据库中的 Table 在概念上是类似
　　（2）每一个 Table 在 Hive 中都有一个相应的目录存储数据。例如，一个表 test，它在 HDFS 中的路径为：/ warehouse/test。 warehouse是在 hive-site.xml 中由 ${hive.metastore.warehouse.dir} 指定的数据仓库的目录
　　（3）所有的 Table 数据（不包括 External Table）都保存在这个目录中。
　　（4）删除表时，元数据与数据都会被删除
　　（5）创建数据文件inner_table.dat
　　（6）创建表：
　　　　hive>create table inner_table (key string);
　　（7）加载数据：
　　　　hive>load data local inpath '/root/inner_table.dat' into table inner_table;
　　（8）查看数据：
　　　　select * from inner_table
　　　　select count(*) from inner_table
　　（9）删除表 drop table inner_table
14：Hive的数据模型-分区表：
　　（1）Partition 对应于数据库的 Partition 列的密集索引
　　（2）在 Hive 中，表中的一个 Partition 对应于表下的一个目录，所有的 Partition 的数据都存储在对应的目录中
　　　　例如：test表中包含 date 和 city 两个 Partition，
　　　　　　则对应于date=20130201, city = bj 的 HDFS 子目录为：
　　　　　　/warehouse/test/date=20130201/city=bj
　　　　　　对应于date=20130202, city=sh 的HDFS 子目录为；
　　　　　　/warehouse/test/date=20130202/city=sh

一些相关命令
SHOW TABLES; # 查看所有的表
SHOW TABLES '*TMP*'; #支持模糊查询
SHOW PARTITIONS TMP_TABLE; #查看表有哪些分区
DESCRIBE TMP_TABLE; #查看表结构

　　（3）创建数据文件partition_table.dat
　　（4）创建表
　　　　create table partition_table(rectime string,msisdn string) partitioned by(daytime string,city string) row format delimited fields terminated by '\t' stored as 　　　　TEXTFILE;
　　（5）加载数据到分区
　　　　load data local inpath '/home/partition_table.dat' into table partition_table partition (daytime='2013-02-01',city='bj');
　　（6）查看数据
　　　　select * from partition_table
　　　　select count(*) from partition_table
　　（7）删除表 drop table partition_table
　　（8）alter table partition_table add partition (daytime='2013-02-04',city='bj');
　　　　通过load data 加载数据

　　（9）alter table partition_table drop partition (daytime='2013-02-04',city='bj')
　　　　元数据，数据文件删除，但目录daytime=2013-02-04还在

15：Hive的数据模型—桶表：
　　（1）桶表是对数据进行哈希取值，然后放到不同文件中存储。
　　（2）创建表
   　　　　create table bucket_table(id string) clustered by(id) into 4 buckets;
　　（3）加载数据
   　　　　set hive.enforce.bucketing = true;
   　　　　insert into table bucket_table select name from stu;
   　　　　insert overwrite table bucket_table select name from stu;
　　（4）数据加载到桶表时，会对字段取hash值，然后与桶的数量取模。把数据放到对应的文件中。
　　（5）抽样查询
   　　　　select * from bucket_table tablesample(bucket 1 out of 4 on id);
16：Hive的数据模型-外部表：
　　（1）指向已经在 HDFS 中存在的数据，可以创建 Partition；
　　（2）它和内部表在元数据的组织上是相同的，而实际数据的存储则有较大的差异；
　　（3）内部表的创建过程和数据加载过程（这两个过程可以在同一个语句中完成），在加载数据的过程中，实际数据会被移动到数据仓库目录中；之后对数据对访问将会直接在数据仓库目录中完成。删除表时，表中的数据和元数据将会被同时删除；
　　（4）外部表只有一个过程，加载数据和创建表同时完成，并不会移动到数据仓库目录中，只是与外部数据建立一个链接。当删除一个外部表时，仅删除该链接；

CREATE EXTERNAL TABLE page_view
( viewTime INT, 
  userid BIGINT,
  page_url STRING,     
 referrer_url STRING,                             
  ip STRING COMMENT 'IP Address of the User',
  country STRING COMMENT 'country of origination‘
)
    COMMENT 'This is the staging page view table'
    ROW FORMAT DELIMITED FIELDS TERMINATED BY '44' LINES     TERMINATED BY '12'
    STORED AS TEXTFILE
    LOCATION 'hdfs://centos:9000/user/data/staging/page_view';

　　（5）创建数据文件external_table.dat
　　（6）创建表
　　　　hive>create external table external_table1 (key string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' location '/home/external';
　　（7）在HDFS创建目录/home/external
　　　　#hadoop fs -put /home/external_table.dat /home/external
　　（8）加载数据
　　　　LOAD DATA INPATH '/home/external_table1.dat' INTO TABLE external_table1;
　　（9）查看数据
　　　　select * from external_table
　　　　select count(*) from external_table
　　（10）删除表
　　　　drop table external_table
17：视图操作：
　　视图的创建
　　CREATE VIEW v1 AS select * from t1;
18：表的操作：
　　（1）表的修改
　　　　alter table target_tab add columns (cols,string)
　　（2）表的删除
　　　　drop table
19：为什么选择Hive？
　　（1）基于Hadoop的大数据的计算/扩展能力；
　　（2）支持SQL like查询语言；
　　（3）统一的元数据管理；
　　（4）简单编程；
20：导入数据
　　（1）当数据被加载至表中时，不会对数据进行任何转换。Load 操作只是将数据复制/移动至 Hive 表对应的位置。
　　　　LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE]

微信关注我们

原文链接：https://yq.aliyun.com/articles/310571

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

oozie 提交作业时因请求资源不足而suspend的解决方法

1，环境情况安装的CDH5.4，使用CM来管理各个组件（Yarn、Spark、HDFS、Hive、Oozie……）。 2，在shell命令下提交Oozie作业 ①sudo –u hdfs hadoop fs –mkdir /user/cdhfive 创建一个专门的用户目录，这里为cdhfive ②sudo –u hdfs hadoop –chown –R cdhfive /user/cdhfive 权限更改 ③hadoop fs –put examples /user/cdhfive/ 把示例文件上传到HDFS上的cdhfive用户目录下 ④oozie job -oozie http://localhost:11000/oozie -config examples/apps/map-reduce/job.properties –run 提交作业给oozie ⑤oozie job --oozie http://localhost:11000/oozie -info 0000001-151009154615306-oozie-oozi-W 查询提交的作业 3，碰到的问题 ①提交过程中出...

2017-10-17

734

本文目的当前spark（1.3版）随机森林实现，没有包括OOB错误评估和变量权重计算。而这两个功能在实际工作中比较常用。OOB错误评估可以代替交叉检验，评估模型整体结果，避免交叉检验带来的计算开销。现在的数据集，变量动辄成百上千，变量权重有助于变量过滤，去掉无用变量，提高计算效率，同时也可以帮助理解业务。所以，本人在原始代码基础上，扩展了这两个功能，下面记录实现过程，作为备忘录（参考代码）。整体思路 Random Forest实现中，大多数内部对象是私有（private[tree]）的，所以扩展代码使用了org.apache.spark.mllib.tree的命名空间，复用这些内部对象。实现过程中，需要放回抽样数据，Random Forest的原始实现是放在局部变量baggedInput中，外部无法访问，所以扩展代码必须冗余部分原始代码，用于访问baggedInput变量。原始实现中，会先将LabeledPoint转成装箱对象TreePoint，但是在计算OOB时，需要LabeledPoint，所以需要实现TreePoint到LabeledPoint的转换逻辑。对于连续变量，取每...

2017-10-17

640

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。