揭秘Spark应用性能调优
引言:在多台机器上分布数据以及处理数据是Spark的核心能力,即我们所说的大规模的数据集处理。为了充分利用Spark特性,应该考虑一些调优技术。本文每一小节都是关于调优技术的,并给出了如何实现调优的必要步骤。本文选自《Spark GraphX实战》。 1 用缓存和持久化来加速 Spark 我们知道Spark 可以通过 RDD 实现计算链的原理 :转换函数包含在 RDD 链中,但仅在调用 action 函数后才会触发实际的求值过程,执行分布式运算,返回运算结果。要是在 同一 RDD 上重复调用 action 会发生什么? RDD 持久化 一般 RDD 不会保留运算结果,如果再次调用 action 函数,整个 RDD 链会重新 运算。有些情况下这不会有问题,但是对于许多机器学习任务和图处理任务,这就 是很大的问题了。通常需要多次迭代的算法,在同一个 RDD 上执行很多次,反复 地重新加载数据和重新计算会导致时间浪费。更糟糕的是,这些算法通常需要很长 的 RDD 链。看来我们需要另一种方式来充分利用集群可用内存来保存 RDD 的运算结果。 这就是 Spark 缓存(缓存也是 Spark 支持...