[R]高性能计算SparkR

2016-09-21 796

Why SparkR

Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。

而Spark力图整合机器学习（MLib）、图算法（GraphX）、流式计算（Spark Streaming）和数据仓库（Spark SQL）等领域，通过计算引擎Spark，弹性分布式数据集（RDD），架构出一个新的大数据应用平台。

SparkR 是一个提供轻量级前端的 R 包，在 R 的基础上加入了 Spark 的分布式计算和存储等特性。在 Spark 1.6.1 中，SparkR 提供了一个分布式数据框（DataFrame）的实现，它能够支持诸如选取、过滤和聚集等操作。这个特性与 R 语言自身提供的特性类似，但 SparkR 能够作用于更大规模的数据集。SparkR 是一个提供轻量级前端的 R 包，在 R 的基础上加入了 Spark 的分布式计算和存储等特性。汇集了spark和R本身的诸多优点，如下图。

SparkR是什么.png

SparkR的架构.png

How to use it？

SparkR特有SparkDataFrame

SparkDataFrame的特点.png

SparkDataFrame的例子.png

SparkDataFram要实现MapReduce的函数式操作

dapply
dapplyCollect
gapply
其中dapply的框架如下图所示：

dapply的框架.png

dapply 的用法：

dapply(x,fun,schema)
dapply(x,fun)
把fun函数应用到SparkDataFrame的每一个数据切片，然后把结果收集回本机成为data.frame；
R函数的输入、输出均为data.frame
指定schema，R函数输出必须匹配schema
example:

df <- creatDataFrame(sqlContext,mtcars)
df1 <- dapply(df,functuion(x){x+1},schema(df))

dapplyCollect
其中dapply的框架如下图所示：

ldf <- dapplyCollect(df,function(x){x+1})

微信关注我们

原文链接：https://yq.aliyun.com/articles/618665

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

hadoop集群同步实现

#!/usr/bin/env python #coding=utf-8 #scribe日志接收存在小集群到大集群之间， distcp 同步失败的情况，需要手动进行补入。 #1、如果查询补入的日志量少，则可以之间用脚本处理。如果量大，则使用 hadoop 提交job。 # hadoop job 提交方式： # hadoop jar /usr/local/hadoop-2.4.0/share/hadoop/tools/lib/hadoop-distcp-2.4.0.jar -m 100 hdfs://scribehadoop/scribelog/common_act/2016/08/02/13/ /file/realtime/distcpv2/scribelog/common_act/2016/08/02/13 --update # --update 参数表示如果目标地址目录存在，则更新该目录中的内容。 #手动同步脚本使用方法： python manual_check_sync.py dst_path #脚本完成大集群和小集群之间的目录大小比较，目录文件比较。输出差异文件列表。最后...

2016-09-21

663

最近MaxCompute在升级jdk8的环境，导致线上使用到MVEL的离线任务挂掉，主要是下面这个异常 Exception in thread "main" java.lang.VerifyError: (class: ASMAccessorImpl_4458843621386333353870, method: getKnownEgressType signature: ()Ljava/lang/Class;) Illegal type in constant pool 经过一系列查找最终确定这个是低版本mvel的bug，主要是ASMAccessorOptimizer这个类对高版本java没有处理，已经得到官方确认https://github.com/mvel/mvel/pull/84 https://github.com/mve

2016-09-21

710

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。

[R]高性能计算SparkR

Why SparkR

How to use it？

hadoop集群同步实现

低版本mvel在MaxCompute jdk8环境中报java.lang.VerifyError

相关文章

发表评论

资源下载

Mario

Nacos

Sublime Text

WebStorm

欢迎您来访！