1.Writing R data frames returned from SparkR:::map-低调大师

1.Writing R data frames returned from SparkR:::map

2016-10-25 616

stack overflow原文地址
弱鸡小白在使用SparkR处理大规模的R dataframe时想使用map的方式进行数据操作。数据都是结构化的，并且每个分区都是相同的结构。本想的将这些数据作为parquet这样就可以避免collect的Action操作。现在很担心能不能再程序输出的output list后进行write.df的操作，能否使用worker tasks编写替代指定parquet进行操作？
小白的程序如下：

#! /usr/bin/Rscript
library(SparkR, lib.loc="/opt/spark-1.5.1-bin-without-hadoop/R/lib")
source("jdbc-utils.R")
options(stringsAsFactors = FALSE)

# I dislike having these here but when I move them into main(), it breaks - the sqlContext drops.
assign("sc", sparkR.init(master = "spark://poc-master-1:7077", sparkHome = "/opt/spark-1.5.1-bin-without-hadoop/", appName = "Peter Spark test", list(spark.executor.memory="4G")), envir = .GlobalEnv)
assign("sqlContext", sparkRSQL.init(sc), envir =.GlobalEnv)

#### MAP function ####
run.model <- function(v) {
 x <- v$xs[1]
 y <- v$ys[1] 
startTime <- format(Sys.time(), "%F %T") 
xs <- c(1:x)
endTime <- format(Sys.time(), "%F %T")
hostname <- system("hostname", intern = TRUE) 
xys <- data.frame(xs,y,startTime,endTime,hostname,stringsAsFactors = FALSE) 
return(xys)
}

# HERE BE THE SCRIPT BIT
main <- function() { 
# Make unique identifiers for each run 
xs <- c(1:365) 
ys <- c(1:1) 
xys <- data.frame(xs,ys,stringsAsFactors = FALSE) 
# Convert to Spark dataframe for mapping 
sqlContext <- get("sqlContext", envir = .GlobalEnv)
 xys.sdf <- createDataFrame(sqlContext, xys) 
# Let Spark do what Spark does 
output.list <- SparkR:::map(xys.sdf, run.model) 
# Reduce gives us a single R dataframe, which may not be what we want. 
output.redux <- SparkR:::reduce(output.list, rbind) 
# Or you can have it as a list of data frames. output.col <- collect(output.list) 
return(NULL)
}

小白心里是这样想的，先生成一个名字叫xys的dataframe，两列数据，一列是1:365，另一列是1。通过createDataFrame将其转换成为RDD，然后进行map和reduce的操作。同时编写了一个demo小函数，用来进行map。

程序结果.png

小白同学的心中是充满疑惑的：

并没有想象中的需要避免绝对的collect使用，而去将结果组合作为Parquet进行存储；
同时，也并不确信:::map的函数形式真正实现了并行，难道需要一直申明parallelise

对于小白的疑惑，大腿同学是这样解释的：
假设你的数据差不多是下面这个样子的：

rdd <- SparkR:::parallelize(sc, 1:5)
dfs <- SparkR:::map(rdd, function(x) mtcars[(x * 5):((x + 1) * 5), ])

首先给你瞅一眼mtcars的数据：

mtcars.png

瞅一眼程序结果：

程序结果.png

同时大腿也给出了自己的思路：
因为要对所有数据的列进行操作，完全可以把它转换成为row-wise的逐行操作类型；

rows <- SparkR:::flatMap(dfs, function(x) { 
data <- as.list(x) 
args <- list(FUN = list, SIMPLIFY = FALSE, USE.NAMES = FALSE)
do.call(mapply, append(args, data))})
sdf <- createDataFrame(sqlContext, rows)
head(sdf)

结果.png

大腿这里用了append秒rbind一万条街；用flatmap实现了map实现的捉襟见肘的多分区集合，小白深感佩服。
看到小白一脸葱白的样子，大神接着说：
接下来就可以使用简单的write.df / saveDF了
小白啊，你的问题主要是一开始使用了一个内部方法map，他被从最初版本移除的一个重要原因是如果直接使用是不健全的，而且也不清楚将来会不会被支持，谁知道呢。
于是小白关注了大腿同学。

微信关注我们

原文链接：https://yq.aliyun.com/articles/618660

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

直接运行可执行文件linux终端一闪而过

运行elasticsearch的时候进入bin目录，ela 然后tab提示的内容中没有e..s..，很奇怪，然后我直接双击运行es，终端一闪而过，我就手动打开终端， ./elasticsearch 这样就可以了，.代表当前目录，..代表上级目录，./代表当前目录下的某个文件。

2016-10-26

858

ElasticSearch-Head ElasticSearch-Head 是一个与Elastic集群（Cluster）相交互的Web前台。 ES-Head的主要作用它展现ES集群的拓扑结构，并且可以通过它来进行索引（Index）和节点（Node）级别的操作它提供一组针对集群的查询API，并将结果以json和表格形式返回它提供一些快捷菜单，用以展现集群的各种状态安装在线安装针对ElasticSearch，我们可以直接通过命令行进行在线插件安装 ⇒ sudo elasticsearch/bin/plugin install mobz/elasticsearch-head 但是可能会出现SSLHandshakeException错误参考https://github.com/mobz/elasticsearch-head/issues/190给出的解决方法。例如： bin/plugin --install knapsack --url file:///Full/Path/To/elasticsearch-knapsack-2.1.2.zip 手动安装先到github下载文件...

2016-10-26

691

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。