Spark - A Fault-Tolerant Abstraction for In-Memory Cluster Computing
Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing 为什么需要Spark? 当前已经有比较多的compute framework 比如, Hadoop用于batch分析, 全量分析 Storm用于streaming分析 但是这些场景, 数据都是只需要使用一次, 不需要反复使用, 对于数据需要被反复多次使用的场景, 现有的framework都无法很好的handle, 对于hadoop大量磁盘I/O, 对于storm会有大量的网络I/O Spark解决的核心问题, 怎样高效的data reuse? 主要针对两个场景, iterative算法, 很多机器学习和图的算法都需要迭代的, 比如K-means, PageRank interactive数据挖掘和分析Data reuse is common in manyiterative machine learningand graph algorithms, including PageRank, K-mean...