初步认识Hive
Hive是构建在hadoop之上的数据仓库。不是用来增删改查的那种数据库,那是数据库。 1)数据计算是MapReduce 2)数据存储是HDFS 认识 Hive Hive 是基于 Hadoop 构建的一套数据仓库分析系统,它提供了丰富的 SQL 查询方式来分析存储在 Hadoop 分布式文件系统中的数据, 可以将结构化的数据文件映射为一张数据库表,并提供完整的 SQL 查询功能,可以将 SQL 语句转换为 MapReduce 任务进行运行,通过自己的 SQL 去 查询分析需要的内容,这套 SQL 简称 Hive SQL,使不熟悉 MapReduce 的用户很方便地利用 SQL 语言查询、汇总、分析。核心仍然是mapreduce作业。 Hive常见的应用场景 1、日志分析 1)统计网站一个时间段内的pv、uv 2)从不同维度进行数据分析 2、海量结构化数据离线分析 Hive的优点 1、简单容易入手 2、它是为超大数据集而设计的计算和扩展能力 3、提供统一的元数据管理 Hive的缺点 1、Hive的HQL的表达能力有限 1)迭代式算法无法表达,比如pageran...