SparkR-低调大师

SparkR

2018-01-16 671

1. sparkR的简介

SparkR是一个R语言包，它提供了轻量级的方式使得可以在R语言中使用Apache Spark。在Spark 1.4中，SparkR实现了分布式的data frame，支持类似查询、过滤以及聚合的操作（类似于R中的data frames：dplyr)，但是这个可以操作大规模的数据集。

2. 使用spark的两种方式

1.在sparkR的shell中交互式使用

sparkR

2.在R脚本中使用

if (nchar(Sys.getenv("SPARK_HOME")) < 1) {
  Sys.setenv(SPARK_HOME = "/home/spark")
}
library(SparkR, lib.loc = c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib")))
sc <- sparkR.init(master = "spark://10.137",sparkEnvir = list(spark.driver.memory="3g"))

3. 纯R语言和SparkR

当数据量很大时，纯R速度就比较慢，无法用到大数据分布式性能，SparkR可以。

注意比较python，pyspark，SparkR等

4. SparkR DataFrame的基本使用

DataFrame是数据组织成一个带有列名称的分布式数据集。在概念上和关系型数据库中的表类似，或者和R语言中的data frame类似，但是这个提供了很多的优化措施。构造DataFrame的方式有很多：可以通过结构化文件中构造；可以通过Hive中的表构造；可以通过外部数据库构造或者是通过现有R的data.frame构造等等。

1.从SparkContext和SQLContext开始

SparkContext是SparkR的切入点，它使得你的R程序和Spark集群互通。你可以通过sparkR.init来构建SparkContext，然后可以传入类似于应用程序名称的选项给它。如果想使用DataFrames，我们得创建SQLContext，这个可以通过SparkContext来构造。如果你使用SparkR shell， SQLContext 和SparkContext会自动地构建好。

sc <- sparkR.init()
sqlContext <- sparkRSQL.init(sc)

2.创建DataFrame

如果有SQLContext实例，那么应用程序就可以通过本地的R data frame（或者是Hive表；或者是其他数据源）来创建DataFrames。下面将详细地介绍。

(1)通过本地data.frame构造

最简单地创建DataFrames是将R的data frame转换成SparkR DataFrames，我们可以通过createDataFrame来创建，并传入本地R的data.frame以此来创建SparkR DataFrames，下面例子就是这种方法：

user=data.frame(name=c('zhangsan','lisi','wangwu','zhaoliu'),age=c(21,23,20,27))
df <- createDataFrame(sqlContext, user)

(2)通过Data Sources构造

通过DataFrame接口，SparkR支持操作多种数据源，本节将介绍如何通过Data Sources提供的方法来加载和保存数据。你可以阅读Spark SQL编程指南来了解更多的options选项.
Data Sources中创建DataFrames的一般方法是使用read.df，这个方法需要传入SQLContext，需要加载的文件路径以及数据源的类型。SparkR内置支持读取JSON和Parquet文件，而且通过Spark Packages你可以读取很多类型的数据，比如CSV和Avro文件。
下面是介绍如何JSON文件，注意，这里使用的文件不是典型的JSON文件。每行文件必须包含一个分隔符、自包含有效的JSON对象：

people <- read.df(sqlContext, "/wmf/people.json", "json")
head(people)

# SparkR 能自动从Json文件推断schema
printSchema(people)

Data sources API还可以将DataFrames保存成多种的文件格式，比如我们可以通过write.df将上面的DataFrame保存成Parquet文件：

write.df(people, path="people.parquet", source="parquet", mode="overwrite")

(3)通过Hive tables构造

我们也可以通过Hive表来创建SparkR DataFrames，为了达到这个目的，我们需要创建HiveContext，因为我们可以通过它来访问Hive MetaStore中的表。注意，Spark内置就对Hive提供了支持。

hiveContext <- sparkRHive.init(sc)
sql="能在bdcmagic上运行的sql语句"
results<-sql(hiveContext, sql)
head(results)

3.DataFrame的相关操作

(1)选择行和列
#创建一个数据框
user=data.frame(name=c('zhangsan','lisi','wangwu','zhaoliu'),age=c(21,23,20,27))
df <- createDataFrame(sqlContext, user)
#获得数据框的一个基本信息
df
#选择某一列
head(select(df,df$name)) #或者直接使用数据框的列名来选择head(select(df,name))

(2)Grouping和Aggregation
#n操作符其实就是count的意思
head(summarize(groupBy(df, df$sex), count = n(df$sex)))

#数据框的排序
sex_counts=summarize(groupBy(df, df$sex), count = n(df$sex))
head(arrange(sex_counts, desc(sex_counts$count)))

(3)列上面的操作
SparkR提供了大量的函数用于直接对列进行数据处理的操作。
#为数据框增加一列
df$second_age=df$age+10
head(df)

(4)在数据框上使用SQL查询
#创建一个数据框
...

#将数据框注册成表
registerTempTable(df, "people")

#运行sql语句
sql(hiveContext,"sql语句，eg:select * from people")

#过滤，选择满足条件的行
head(filter(df, df$age < 23))

微信关注我们

原文链接：https://yq.aliyun.com/articles/625566

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Spark Streaming

1. Spark Streaming介绍 Spark Streaming 是Spark核心API的一个扩展，可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据，包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets，从数据源获取数据之后，可以使用诸如map、reduce、join和window等高级函数进行复杂算法的处理。最后还可以将处理结果存储到文件系统，数据库和现场仪表盘。在“One Stack rule them all”的基础上，还可以使用Spark的其他子框架，如集群学习、图计算等，对流数据进行处理。 Spark Streaming处理的数据流图： Spark的各个子框架，都是基于核心Spark的，Spark Streaming在内部的处理机制是，接收实时流的数据，并根据一定的时间间隔拆分成一批批的数据，然后通过Spark Engine处理这些批数据，最终得到处理后的一批批结果数据。对应的批数据，在Spark内核对应一个RDD实例，因此，对应流数据的DStream可以看成是一组RDDs，即RDD的一个序列...

2018-01-16

544

Shark自己也没用过，不太熟悉，只了解它的背景，现在已经被Spark淘汰，也不去熟悉它了！ Spark 1.0版本开始，推出了Spark SQL。其实最早使用的，都是Hadoop自己的Hive查询引擎；但是后来Spark提供了Shark；再后来Shark被淘汰，推出了Spark SQL。Shark的性能比Hive就要高出一个数量级，而Spark SQL的性能又比Shark高出一个数量级。最早来说，Hive的诞生，主要是因为要让那些不熟悉Java，无法深入进行MapReduce编程的数据分析师，能够使用他们熟悉的关系型数据库的SQL模型，来操作HDFS上的数据。因此推出了Hive。Hive底层基于MapReduce实现SQL功能，能够让数据分析人员，以及数据开发人员，方便的使用Hive进行数据仓库的建模和建设，然后使用SQL模型针对数据仓库中的数据进行统计和分析。但是Hive有个致命的缺陷，就是它的底层基于MapReduce，而MapReduce的shuffle又是基于磁盘的，因此导致Hive的性能异常低下。进场出现复杂的SQL ETL，要运行数个小时，甚至数十个小时的情况。后来...

2018-01-16

706

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。