Hive初识
背景 mapreduce编程的不变性,开发成本较高。比较死板。 MapReduce is hard to program 【八股文】格式编程,三大部分 No Schema, lack of query lanaguages, eg. SQL(没有库,缺乏查询语言slq等) 数据分析,针对DBA、SQL语句,如何对数据分析 MapReduce编程成本高 FaceBook 实现并开源Hive 如何简化MapReduce的开发??? hive介绍 hive把HDFS、yarn、MapReduce封装了。数据存储在hdfs、转换为MapReduce、运行在yarn上。hive是一个数据仓库。 什么是HIVE? 由Facebook开源用于解决海量结构化日志的数据统计; Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张表,并提供类SQL查询功能; 构建在Hadoop之上的数据仓库; 使用HQL作为查询接口; 使用HDFS存储; 使用MapReduce计算; 本质是:将HQL转化成MapReduce程序 灵活性和扩展性比较好:支持UDF,自定义存储格式等; 适合离线数据...
