Spark VS Hadoop 解读两大大数据分析系统
大数据,无论是从产业上,还是从技术上来看,都是目前的发展热点。在中国,政府控制着80%的数据,剩下的多由“BAT”这样的大公司拥有,中小企业如何构建自己的大数据系统?其他企业如何建设自己的大数据系统? 推荐两大应用最广泛、国人认知最多的Apache开源大数据框架系统: Spark Hadoop。 Spark :速度快、易于使用 Spark以性能见长,但是它也因易用性而小有名气,原因是它随带易于使用的API,支持Scala(原生语言)、Java、 Python 和Spark SQL 。Spark SQL非常类似于SQL 92,所以几乎不需要经历一番学习,马上可以上手。 Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce 的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。 Spark还有一种交互模...