Spark On HBASE
一、前言
MapReduce早已经对接了HBase,以HBase作为数据源,完成批量数据的读写。如今继MapReduce之后的Spark在大数据领域有着举足轻重的地位,无论跑批,流处理,甚至图计算等都有它的用武之地。Spark对接HBase成为不少用户的需求。
二、Spark On HBASE
1.可以解决的问题
Spark和HBASE无缝对接意味着我们不再需要关心安全和RDD与HBase交互的细节。更方便应用Spark带来的批处理,流处理等能力。比如以下常见的应用场景:
- 以HBase作为存储,通过Spark对流式数据处理。
- 以HBase作为存储,完成大规模的图或者DAG的计算。
- 通过Spark对HBase做BulkLoad操作
- 同Spark SQL对HBase数据做交互式分析
2.社区相关的工作
目前已经有多种Spark对接HBase的实现,这里我