《Spark大数据分析:核心概念、技术及实践》一3.10 总结
3.10 总结
Spark是一个快速、可扩展、可容错且基于内存的集群计算框架。一个Spark应用可以比Hadoop应用快上100倍。
Spark不但快速而且它能很方便地使用mapReduce。通过不同语言(包括Java、Python、Scala和R)的易读的API,它可以方便地开发分布式大数据应用。使用Spark开发者的生产力可以有5~10倍的提升。
而且Spark为各种数据处理任务提供了统一的平台。它是一个通用的框架,可以被各种大数据应用使用。对于迭代式数据分析或者使用迭代算法的应用而言,它是一个理想的平台。
Spark的编