强者联盟——Python语言结合Spark框架
引言:Spark由AMPLab实验室开发,其本质是基于内存的快速迭代框架,“迭代”是机器学习最大的特点,因此非常适合做机器学习。得益于在数据科学中强大的表现,Python语言的粉丝遍布天下,如今又遇上强大的分布式内存计算框架Spark,两个领域的强者走到一起,自然能碰出更加强大的火花(Spark可以翻译为火花),因此本文主要讲述了PySpark。本文选自《全栈数据之门》。 全栈框架 Spark由AMPLab实验室开发,其本质是基于内存的快速迭代框架,“迭代”是机器学习最大的特点,因此非常适合做机器学习。框架由Scala语言开发,原生提供4种API,Scala、Java、Python以及最近版本开始支持的R。Python不是Spark的“亲儿子”,在支持上要略差一些,但基本上常用的接口都支持。得益于在数据科学中强大的表现,Python语言的粉丝遍布天下,如今又遇上强大的分布式内存计算框架Spark,两个领域的强者走到一起,自然能碰出更加强大的火花(Spark可以翻译为火花),因此PySpark是本节的主角。在Hadoop发行版中,CDH5和HDP2都已经集成了Spark,只是集成的版本比...
