Apache Spark机器学习.2.5 数据集连接
2.5 数据集连接
本节,我们将介绍数据连接的技术,并讨论Spark处理数据连接的特有的特征,以及一些使工作更容易进行的数据连接解决方案。
学习完本节,我们将有能力按照各类机器学习需要做数据连接。
2.5.1 数据连接及其工具——Spark SQL
为机器学习项目准备数据集时,我们一般需要组合多个数据集。关系表通过主键和外键进行连接。
连接两个及以上的数据集听起来容易,但做起来非常有挑战,并且非常耗时。在SQL语句中,SELECT是最常用的命令。作为例子,下面是一个执行连接的典型的SQL代码:
为执行上面提到的表连接任务,数据科学家和机器学习从业者经常使用他们熟悉的SQL工具。在Spark环境中,Spark SQL就是为此开发的工具。
Spark SQL能够让用户在Spark开发环境中使用SQL或 DataFrame API查询结构化数据,这