hadoop(1):centos 安装 hadoop & hive
1,关于hive
Hive是一个基于Hadoop的数据仓库平台。通过hive,我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言:HQL,能 够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。
Hive是Facebook 2008年8月刚开源的一个数据仓库框架,其系统目标与 Pig 有相似之处,但它有一些Pig目前还不支持的机制,比如:更丰富的类型系统、更类似SQL的查询语言、Table/Partition元数据的持久化等。
本文的原文连接是: http://blog.csdn.net/freewebsys/article/details/47617975 未经博主允许不得转载。
网站首页:
http://hive.apache.org/
2,安装
首先要安装hadoop
https://hadoop.apache.org/
直接下载tar.gz解压缩。最新版本2.7.1。
tar -zxvf hadoop-2.7.1.tar.gz mv hadoop-2.7.1 hadoop
下载地址:
http://hive.apache.org/downloads.html
直接解压缩就可以。最新版本 1.2.1。
tar -zxvf apache-hive-1.2.1-bin.tar.gz mv apache-hive-1.2.1 apache-hive
设置环境变量:
export JAVA_HOME=/usr/java/default export CLASS_PATH=$JAVA_HOME/lib export PATH=$JAVA_HOME/bin:$PATH export HADOOP_HOME=/data/hadoop export PATH=$HADOOP_HOME/bin:$PATH export HIVE_HOME=/data/apache-hive export PATH=$HIVE_HOME/bin:$PATH
3,启动hive,创建表
hive 官网:https://cwiki.apache.org/confluence/display/Hive/Home
配置环境变量就可以启动hive了,这个hive是一个本机环境,只依赖hadoop,只有有hadoop环境变量就行。
创建数据表,和mysql非常类似
参考:http://www.uml.org.cn/yunjisuan/201409235.asp
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL
# hive Logging initialized using configuration in jar:file:/data/apache-hive/lib/hive-common-1.2.1.jar!/hive-log4j.properties hive> show databases; OK default Time taken: 1.284 seconds, Fetched: 1 row(s) hive> use default; OK Time taken: 0.064 seconds hive> show tables; OK Time taken: 0.051 seconds hive> CREATE TABLE user_info(uid INT,name STRING) > PARTITIONED BY (create_date STRING) > ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' > STORED AS TEXTFILE; OK Time taken: 0.09 seconds
使用apache hive 创建数据库表的时候有可能会遇到问题:
FAILED: ParseException line 5:2 Failed to recognize predicate 'date'. Failed rule: 'identifier' in column specification
说明关键字冲突了。不能使用date,user等关键字。
指定存储格式为 Sequencefile 时,把txt格式的数据导入表中,hive 会报文件格式错
Failed with exception Wrong file format. Please check the file's format. FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.MoveTask
4,导入数据
hive不支持用insert语句一条一条的进行插入操作,也不支持update操作。数据是以load的方式加载到建立好的表中。
数据一旦导入就不可以修改。因为hadoop是这个特性。
创建两个数据文件:
/data/user_info_data1.txt
121,zhangsan1
122,zhangsan2
123,zhangsan3
/data/user_info_data2.txt
124,zhangsan4
125,zhangsan5
126,zhangsan6
数据导入:分别将数据导入到两个分区中。
hive> LOAD DATA LOCAL INPATH '/data/user_info_data1.txt' OVERWRITE INTO TABLE user_info PARTITION (create_date='20150801'); Loading data to table default.user_info partition (create_date=20150801) Partition default.user_info{create_date=20150801} stats: [numFiles=1, numRows=0, totalSize=42, rawDataSize=0] OK Time taken: 0.762 seconds hive> LOAD DATA LOCAL INPATH '/data/user_info_data2.txt' OVERWRITE INTO TABLE user_info PARTITION (create_date='20150802'); Loading data to table default.user_info partition (create_date=20150802) Partition default.user_info{create_date=20150802} stats: [numFiles=1, numRows=0, totalSize=42, rawDataSize=0] OK Time taken: 0.403 seconds
5,查询
直接查询即可。
hive> select * from user_info where create_date = 20150801; OK 121 zhangsan1 20150801 122 zhangsan2 20150801 123 zhangsan3 20150801 Time taken: 0.099 seconds, Fetched: 3 row(s)
更多查询函数参考:
hive 函数大全和用户自定义函数
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF
6,总结
本文的原文连接是: http://blog.csdn.net/freewebsys/article/details/47617975 未经博主允许不得转载。
hive可以非常方便的进行离线数据统计,因为数据一旦录入是不能进行修改的。
hive的语法和mysql非常相似,可以充分利用hadoop进行数据统计,可以进行多次join而不用担心效率问题。
目前,有一个小问题没有解决,是数据导入必须使用textfile,不是压缩文件类型。
这个问题的具体描述参考:
http://blog.163.com/xiaoy2002@126/blog/static/6797953420128118227663/

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
什么是全栈呢(转)
背景 自从2013年离开北京后,就没有在固定单位上班了。期间捣鼓过一些东西,也挣了点小钱,日子也没有到过不下去非要找工作的地步。 只是觉得自身仍有不足,作为技术,还是想再开阔一点,再深刻一点,再专业一点。 也没有去刻意地投递简历,本来老婆怀孕,自己在家,时间比较多,所以就写写博客,所以会有一些来自私信的机会。 既然有机会,那就愉快地去追一下,本篇,就记录一下最近几个月的一些经历。 云XX 这个公司招聘全栈,要求精通编译、操作系统、计算机网络,要精通一门底层语言,比如汇编或者C,要精通一门高级语言,比如C++或者Java,没有.Net方面的要求。 因为不是自己投的,一般看到诸如要求精通的,我就呵呵一下,然后就扫其他的了,但是机缘巧合,可能HR妹妹比较具有亲和力,所以也就答应应试。 约的两周后聊,不过由于老总临时有事,就和CTO哥哥先聊下,主要聊的一些内容是: 操作系统的进/线程区别,Linux Kernel进线程调度的机制,以及操作系统原理概念上的调度算法。 分布式存储的一些问题,比如分布式锁、锁性能、Master-Master多主架构和Master-Slave架构的各自优劣,等等。 作...
- 下一篇
HBase的JAVA API操作详解
hbase 伪 分 布 安 装参考:http://blog.csdn.net/gamer_gyt/article/details/47126961 hbase shell操作命令参考:http://blog.csdn.net/gamer_gyt/article/details/47131857 数 据 挖 掘 资源链接汇总:http://blog.csdn.net/gamer_gyt/article/details/47747857 其中用到的eclipse快捷键: Alt+/ 代码助手完成一些代码的插入,自动显示提示信息 Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了) Alt+↑ 当前行和上面一行交互位置(同上) Alt+← 前一个编辑的页面 Alt+→ 下一个编辑的页面(当然是针对上面那条来说了) Alt+Shift+M 抽取方法 Alt+Shift+L 抽取本地变量 Ctrl+1 快速修复 一:API介绍 几个相关类与HBase数据模型之间的对应关系 java类 HBase数据模型 HBaseAdmin 数据库(DataBase) HBaseConfi...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- CentOS关闭SELinux安全模块
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- SpringBoot2整合Redis,开启缓存,提高访问速度
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- Windows10,CentOS7,CentOS8安装Nodejs环境