您现在的位置是:首页 > 文章详情

hive (基于hadoop的数据仓库)

日期:2016-01-20点击:685

1.简介

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能。

与传统关系数据库相比的优势是:能够处理海量数据。

劣势是:它只提供查询功能,不能增、删、改。涉及到分布式计算的任务分发,查询时间在分钟级,不能当实时工具用。

运行机理:将sql语句转换为MapReduce任务,让Hadoop处理。

2.查询语句

hive //此命令打开hive的CLI(Command Line Interface)。 show databases;//查询所有的数据库名称。 use db_name;//进入hive后是默认的DB,此命令切换到指定的DB。 show tables;//查询当前db下的所有表的名称。 show tables 'ad*';//查询以'ad'开头的表名。 describe table_name;//查看指定表的结构。 select * from table limit 50;//限制返回结果数,与mysql不同,不能使用 limit from,end 这种形式。

3.执行过程

查询开始后控制台会输出一个URL,用于web监控。页面一般长这样,见 图3-1.


图3-1 

4.导出


查询结果落文件有两种方式:

/*查询结果输出到指定目录,文件名一般是0000_0,没有标题列。*/ /*数据量大时可能有若干个结果文件,处理不方便*/ INSERT OVERWRITE LOCAL DIRECTORY '/home/me/csvFileDir/' row format delimited fields terminated by ',' select * from table_name limit 10; /*查询数据并导出到单一文件,分隔符就是制表符,携带标题。*/ hive -e "select * from db_name.table_name limit 10" >> /home/me/csvFileDir/hiveResult.txt


几百兆的大文件,只有UltraEdit能应对。还可以用navicate导入数据库用。

原文链接:https://yq.aliyun.com/articles/65498
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章