Apache Spark机器学习.2.4 数据集重组
2.4 数据集重组
本节,我们介绍数据集重组技术。我们将讨论一些特殊的Spark数据重组特征,以及一些可以用在Spark notebook中基于R语言数据重组的特别方法。
学习完本节,我们可以根据不同的机器学习需要进行数据集重组。
2.4.1 数据集重组任务
数据集重组虽然听起来比较容易,但还是很有挑战,并且非常耗时。
有两个常见的数据重组任务:一是,获取一个用于建模的数据子集;二是,以更高的层次汇总数据。例如,我们有学生数据,但是我们需要一些班级层面的数据集。为此,我们需要计算学生的一些属性,然后重组为新的数据。
处理数据重组,数据科学家和机器学习从业者经常使用他们熟悉的SQL和R语言编程工具。幸运的是,在Spark环境中,Spark SQL和R notebook能够让用户沿用他们熟悉的方式。我们将在下面两节中详细说明。
总体来讲,我们推荐使