hive (基于hadoop的数据仓库)

2016-01-20 1065

1.简介

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能。

与传统关系数据库相比的优势是：能够处理海量数据。

劣势是：它只提供查询功能，不能增、删、改。涉及到分布式计算的任务分发，查询时间在分钟级，不能当实时工具用。

运行机理：将sql语句转换为MapReduce任务，让Hadoop处理。

2.查询语句

hive //此命令打开hive的CLI（Command Line Interface）。
show databases;//查询所有的数据库名称。
use db_name;//进入hive后是默认的DB，此命令切换到指定的DB。
show tables;//查询当前db下的所有表的名称。
show tables  'ad*';//查询以'ad'开头的表名。
describe table_name;//查看指定表的结构。
select * from table limit 50;//限制返回结果数，与mysql不同，不能使用 limit from,end 这种形式。

3.执行过程

查询开始后控制台会输出一个URL，用于web监控。页面一般长这样，见图3-1.

图3-1

4.导出

查询结果落文件有两种方式：

/*查询结果输出到指定目录，文件名一般是0000_0，没有标题列。*/
/*数据量大时可能有若干个结果文件，处理不方便*/
INSERT OVERWRITE LOCAL DIRECTORY '/home/me/csvFileDir/' 
row format delimited fields terminated by ','
select * from table_name limit 10;

/*查询数据并导出到单一文件，分隔符就是制表符，携带标题。*/
hive  -e "select * from db_name.table_name limit 10" >> /home/me/csvFileDir/hiveResult.txt

几百兆的大文件，只有UltraEdit能应对。还可以用navicate导入数据库用。

微信关注我们

原文链接：https://yq.aliyun.com/articles/65498

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

关于Web界面查看日志的权限问题

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/qq1010885678/article/details/50549737 关于Web界面查看日志的权限问题 @(Hadoop) 访问集群的8088端口，通过web ui查看作业日志时，发现没有权限查看，8088主界面右上角显示Logged in as : dr.who，即匿名用户。修改core-site.xml，添加以下内容： <property> <name>hadoop.http.filter.initializers</name> <value>org.apache.hadoop.security.AuthenticationFilterInitializer</value> </property> <property> <name>hadoop.http.authentication.type</name> <value>simple</value&gt...

2016-01-20

713

Hadoop YARN学习之Hadoop框架演进历史简述（1） 1. Hadoop在其发展的过程中经历了多个阶段：阶段0：Ad Hoc集群时代标志着Hadoop的起源，集群以Ad Hoc、单用户方式建立阶段1：Hadoop on Demand（HOD）是进化过程中的下一个阶段，以一种通用系统的形式，在商用硬件组成的共享集群上提供和管理私有Hadoop MapReduce和HDFS实例。阶段2：共享计算集群的黎明始于大量Hadoop安装转向与共享HDFS实例一起的共享MapReduce集群。阶段3：YARN的出现用以解决以往架构的需求和缺陷 2. YARN的特性：可扩展性可维护性多租户位置感知高集群使用率安全和可审计的操作可靠性和可用性对编程模型多样的支持灵活的资源模型向后兼容

2016-01-20

897

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。