《Spark与Hadoop大数据分析》——3.2 学习Spark的核心概念
3.2 学习Spark的核心概念
在本节,我们要了解 Spark 的核心概念。Spark 提供的主要抽象是弹性分布式数据集(Resilient Distributed Dataset,RDD)。因此,我们要了解 RDD 是什么,以及提供内存级性能和容错的 RDD 中包含的运算。但是,首先我们要学习使用 Spark 的方法。
3.2.1 使用 Spark 的方法
使用 Spark 有两种方法,即 Spark Shell 和 Spark 应用程序。
1. Spark Shell
这是可以利用 Scala、Python 或 R 进行数据探索的交互式命令行(read-eval-print loop,REPL)功能:
要获取 spark-shell 选项的完整列表,请使用以下命令:
探索 Spark Scala shell
Scala shell 提供了许

