Hadoop组件--分布式数据库HBase
1. HBase概述 先来看下HBase在Hadoop生态中的位置 HBase是Apache Hadoop⽣态系统中的重要⼀员,主要⽤于海量结构化数据存储。 HBase是一个构建在HDFS上的分布式列存储系统(严格的来说应该是列族存储),数据保存在HDFS上。 HBase与MapReduce良好的集成,使用MapReduce来处理数据。 HBase利用Zookeeper做分布式协同。 从逻辑上讲,HBase将数据按照表、⾏和列进⾏存储,它是⼀个分布式的、稀疏的、持久化存储的多维度排序表。 相对于Hive来说,HBase适合实时数据访问,Hive则适合批处理数据分析。 HBase的应用场景很多,百度的页面库,淘宝的商品库,小米的云存储服务等。 2. HBase数据模型 (Table, RowKey, Family, Qualifier, TimeStamp) -->Value 在HBase中,一行数据由行健RowKey作为键,包含多个列族(Famliy),列族由可同时访问的多个列组成(Qualifier), 时间戳作为索引(TimeStamp)。 表 --可以是稀疏的,空值在HBa...




