SparkR
1. sparkR的简介 SparkR是一个R语言包,它提供了轻量级的方式使得可以在R语言中使用Apache Spark。在Spark 1.4中,SparkR实现了分布式的data frame,支持类似查询、过滤以及聚合的操作(类似于R中的data frames:dplyr),但是这个可以操作大规模的数据集。 2. 使用spark的两种方式 1.在sparkR的shell中交互式使用 sparkR 2.在R脚本中使用 if (nchar(Sys.getenv("SPARK_HOME")) < 1) { Sys.setenv(SPARK_HOME = "/home/spark") } library(SparkR, lib.loc = c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib"))) sc <- sparkR.init(master = "spark://10.137",sparkEnvir = list(spark.driver.memory="3g")) 3. 纯R语言和SparkR 当数据量很大时,纯R速度就比较慢,...