hadoop(1):centos 安装 hadoop & hive
1,关于hive Hive是一个基于Hadoop的数据仓库平台。通过hive,我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言:HQL,能 够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。 Hive是Facebook 2008年8月刚开源的一个数据仓库框架,其系统目标与 Pig 有相似之处,但它有一些Pig目前还不支持的机制,比如:更丰富的类型系统、更类似SQL的查询语言、Table/Partition元数据的持久化等。 本文的原文连接是: http://blog.csdn.net/freewebsys/article/details/47617975 未经博主允许不得转载。 网站首页: http://hive.apache.org/ 2,安装 首先要安装hadoop https://hadoop.apache.org/ 直接下载tar.gz解压缩。最新版本2.7.1。 tar -zxvf hadoop-2.7.1.tar.gz mv hadoop-2.7.1 hadoop 下载地址: http://hive.apache.org/downloads.html 直接解压缩就可以。最新版本 1.2.1。 tar -zxvf apache-hive-1.2.1-bin.tar.gz mv apache-hive-1.2.1 apache-hive 设置环境变量: export JAVA_HOME=/usr/java/default export CLASS_PATH=$JAVA_HOME/lib export PATH=$JAVA_HOME/bin:$PATH export HADOOP_HOME=/data/hadoop export PATH=$HADOOP_HOME/bin:$PATH export HIVE_HOME=/data/apache-hive export PATH=$HIVE_HOME/bin:$PATH 3,启动hive,创建表 hive 官网:https://cwiki.apache.org/confluence/display/Hive/Home 配置环境变量就可以启动hive了,这个hive是一个本机环境,只依赖hadoop,只有有hadoop环境变量就行。 创建数据表,和mysql非常类似 参考:http://www.uml.org.cn/yunjisuan/201409235.asp https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL # hive Logging initialized using configuration in jar:file:/data/apache-hive/lib/hive-common-1.2.1.jar!/hive-log4j.properties hive> show databases; OK default Time taken: 1.284 seconds, Fetched: 1 row(s) hive> use default; OK Time taken: 0.064 seconds hive> show tables; OK Time taken: 0.051 seconds hive> CREATE TABLE user_info(uid INT,name STRING) > PARTITIONED BY (create_date STRING) > ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' > STORED AS TEXTFILE; OK Time taken: 0.09 seconds 使用apache hive 创建数据库表的时候有可能会遇到问题: FAILED: ParseException line 5:2 Failed to recognize predicate 'date'. Failed rule: 'identifier' in column specification 说明关键字冲突了。不能使用date,user等关键字。 指定存储格式为 Sequencefile 时,把txt格式的数据导入表中,hive 会报文件格式错 Failed with exception Wrong file format. Please check the file's format. FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.MoveTask 4,导入数据 hive不支持用insert语句一条一条的进行插入操作,也不支持update操作。数据是以load的方式加载到建立好的表中。 数据一旦导入就不可以修改。因为hadoop是这个特性。 创建两个数据文件: /data/user_info_data1.txt 121,zhangsan1 122,zhangsan2 123,zhangsan3 /data/user_info_data2.txt 124,zhangsan4 125,zhangsan5 126,zhangsan6 数据导入:分别将数据导入到两个分区中。 hive> LOAD DATA LOCAL INPATH '/data/user_info_data1.txt' OVERWRITE INTO TABLE user_info PARTITION (create_date='20150801'); Loading data to table default.user_info partition (create_date=20150801) Partition default.user_info{create_date=20150801} stats: [numFiles=1, numRows=0, totalSize=42, rawDataSize=0] OK Time taken: 0.762 seconds hive> LOAD DATA LOCAL INPATH '/data/user_info_data2.txt' OVERWRITE INTO TABLE user_info PARTITION (create_date='20150802'); Loading data to table default.user_info partition (create_date=20150802) Partition default.user_info{create_date=20150802} stats: [numFiles=1, numRows=0, totalSize=42, rawDataSize=0] OK Time taken: 0.403 seconds 5,查询 直接查询即可。 hive> select * from user_info where create_date = 20150801; OK 121 zhangsan1 20150801 122 zhangsan2 20150801 123 zhangsan3 20150801 Time taken: 0.099 seconds, Fetched: 3 row(s) 更多查询函数参考: hive 函数大全和用户自定义函数 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF 6,总结 本文的原文连接是: http://blog.csdn.net/freewebsys/article/details/47617975 未经博主允许不得转载。 hive可以非常方便的进行离线数据统计,因为数据一旦录入是不能进行修改的。 hive的语法和mysql非常相似,可以充分利用hadoop进行数据统计,可以进行多次join而不用担心效率问题。 目前,有一个小问题没有解决,是数据导入必须使用textfile,不是压缩文件类型。 这个问题的具体描述参考: http://blog.163.com/xiaoy2002@126/blog/static/6797953420128118227663/