《Spark与Hadoop大数据分析》——3.6 Spark 资源管理器:Standalone、YARN和Mesos
3.6 Spark 资源管理器:Standalone、YARN和Mesos
在本章其他部分(在 PySpark shell 和应用程序中),我们已经在 Spark 的 Standalone 资源管理器中执行过 Spark 应用程序。让我们尝试理解这些集群资源管理器相互之间有什么不同,以及它们该在什么情况下使用。
3.6.1 本地和集群模式
在继续讲解集群资源管理器之前,让我们来了解集群模式与本地模式的区别。
当跨集群执行代码时,了解变量和方法的范围和生命周期非常重要。让我们看一个使用 foreach 动作的例子:
在本地模式下,前面的代码执行正常,因为计数器(counter)变量和 RDD 在相同的内存空间(单个 JVM)里。
在集群模式下,计数器 counter 的值永远不会改变,并且始终保持为 0。在集群模式下,Spark 会计算出带有变
