《Spark核心技术与高级应用》——1.1节什么是Spark
本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章,第1.1节什么是Spark,作者于俊 向海 代其锋 马海平,更多章节内容可以访问云栖社区“华章社区”公众号查看
1.1 什么是Spark
说起大数据,很多人会想起Doug Cutting以自己儿子玩具小象命名的开源项目Hadoop。Hadoop解决了大多数批处理工作负载问题,成为了大数据时代企业的首选技术。但随着大数据时代不可逆的演进,人们发现,由于一些限制,Hadoop对一些工作负载并不是最优选择,比如:
缺少对迭代的支持;
中间数据需输出到硬盘存储,产生了较高的延迟。
探其究竟,MapReduce设计上的约束比较适合处理离线数据,在实时查询和迭代计算上存在较大的不足,而随着具体业务的发展,业界对实时查询和迭代计算有更多的需求。
2009年,美国加州大学伯克利分校实验室小伙