使用Hadoop还是Spark到底怎么决断?
谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。或许我们可以这样说,Hadoop是大数据的启蒙,借助Hadoop让企业步入了大数据时代。而最近几年,Spark的风头似乎超越了Hadoop。而且网上有一种声音就是Spark将会取代Hadoop成为大数据的统治者,事实上是这样么?且听笔者娓娓道来。 其实,Hadoop与Spark不存在冲突,因为Spark是运行于Hadoop顶层的内存处理方案,也就是说目前部署Spark的企业,其实都在现有的Hadoop集群中运行Spark。主流的Hadoop发行版本提供商比如Cloudera和Hortonworks将Spark列为他们Hadoop发行的一部分。 我们可以说Hadoop和Spark均是大数据框架,都提供了执行常见大数据任务的工具。虽然Spark在某些应用场景下比Hadoop,但是Spark本身没有一个分布式存储系统,而是依赖于Hadoop的HDFS。Spark的高级分析应用也是依赖于HDFS存储数据。 与Hadoop相比,Spark真正的优势在于速度。因为Spark的大部分操作都是在内存中,而Hadoop的Ma...