hadoop——hive学习
一、前言 Hive 是一个基于 Hadoop 文件系统之上的数据仓库架构。它可以将结构化的数据文件映射为一张数据库表,并提供简单的 sql 查询功能。还可以将 sql 语句转换为 MapReduce 任务运行。 二、什么是hive Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类SQL查询语言,称为 HQL,它允许熟悉SQL的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。 Hive在hadoop生态圈中属于数据仓库的角色。他能够管理**hadoop中的数据,同时可以查询**hadoop中的数据。本质上讲,hive是一个SQL解析引擎。Hive可以把SQL查询转换为MapReduce中的job,然后在Hadoop上运行。 三、hive的使用场景 Hive诞生于 facebook 的日志分...



