Spark-python-快速开始-低调大师

Spark-python-快速开始

2016-09-10 692

1. 概览

这篇文章主要是关于Spark的快速熟悉和使用，我们使用Python和Spark的shell接口来操作Spark。 Spark shell使得我们可以很简单的学习Spark的Api，同时也是一个强大数据分析交互的工具。

2. Spark shell

我们使用Python版本的Spark工具pyspark，前提是Spark的安装路径已经加到环境变量PATH中，否则会报找不到命令特别说明: >>>表示的所pyspark的命令

./bin/pyspark

Spark核心的抽象是弹性分布式数据集合，我们称为RDD（Resilient Distributed Dataset）。一个RDD可以从输入文件中产生比如HDFS文件，也可以从其他RDD转换而来。

我们通过读取本地文件text.dat来创建一个新的RDD

hadoop@ubuntu:~/github$ cat text.dat
spark
i
love
you

>>> textFile = sc.textFile("text.dat")

RDD包括两种运算操作，action和transformation。action操作会返回值，例如count()，transformation操作则是返回一个新的RDD，例如filter()。

2). RDD action操作

>>> textFile.count()
4
>>> textFile.first()
u'spark'

3). RDD transformation操作

>>> newTextFile = textFile.filter(lambda line: "spark" in line)
>>> newTextFile.count()
1

4). RDD的操作支持链接在一起操作

>>> textFile.filter(lambda line: "spark" in line).count()
1

3. RDD更多操作

1). RDD的action和transformation可以用在更复杂的计算上面

>>> textFile.map(lambda line: len(line)%2).reduce(lambda a,b: a if (a > b) else b)
1

说明: map产生一个新的RDD,RDD每个值是一个整数,等于每一行长度的1/2.reduce产生另一个新的RDD,对于key相同的数据取整数值最大的那个.(默认情况下key都相同)

在这里我们采用的是python的lambda来代替函数, 所以上面的代码等价于下面的代码

>>> def max(a, b):
...     if a > b:
...             return a
...     else:
...             return b
... 
>>> textFile.map(lambda line: len(line)%2).reduce(max)
1

对于Hadoop的MapReduce来说,Spark可以很容易就实现,比如常见的word count

>>> wordCount = textFile.flatMap(lambda line: line.split('u')).map(lambda word: (word, 1)).reduceByKey(lambda a, b: a+b)
>>> wordCount.collect()
[(u'i', 1), (u'', 1), (u'spark', 1), (u'love', 1), (u'yo', 1)]

在这里我用到了flatMap 这个api, 把一行映射为多行并产生一个新的RDD.再用map把映射为pair(word, 1), 最后用reduce把相同word的count相加. 我们可以用collect action以list方式输出RDD数据

4. 数据缓存

Spark支持把数据缓存到内存中, 很多时候当某些数据被频繁利用的时候缓存数据到内存是非常有用的. 比如当我们在计算网页PageRank的时候可以把经常用的query集合缓存到内存中

>>> wordCount.cache()
PythonRDD[30] at collect at <stdin>:1
>>> wordCount.count()
5
>>> wordCount.count()
5

5. Spark应用程序

同理我们也可以使用Spark API编写Spark应用程序

现在我们用Python API编写一个Spark的应用程序, 命名为simple_app.py

"""
Simple spark app
"""

from pyspark import SparkContext
sc = SparkContext("local", "SimpleApp")

#Spark default read from HDFS
#must be sure has exist HDFS file /user/hadoop/test_data/README.md
data_rdd = sc.textFile('/user/hadoop/test_data/README.md').cache()
num_a = data_rdd.filter(lambda line: 'a' in line).count()
num_b = data_rdd.filter(lambda line: 'b' in line).count()
print num_a
print num_b

我们用spark-submit来提交这个应用程序

spark-submit --master local simple_app.py

快速的完成了Spark的第一个应用程序,后面我们会对Spark的各个模块进入更深的研究

微信关注我们

原文链接：https://yq.aliyun.com/articles/252115

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

使用Spark SQL构建交互式查询引擎

前言 StreamingPro 原来仅仅是用来作为Spark Streaming的一个配置化+SQL封装，然而不经意间，已经涵盖了批处理，交互式查询等多个方面。今天就讲讲如何使用StreamingPro构建一个交互式查询引擎。准备工作下载StreamingPro README中有下载地址如果你使用了 Spark 2.0 版本，则要下载对应页面上的Spark 安装包。因为目前Spark 2.0 默认支持Scala 2.11。我提供了一个机遇Scala 2.10版本的。我们假设您将文件放在了/tmp目录下。启动StreamingPro Local模式： cd $SPARK_HOME ./bin/spark-submit --class streaming.core.StreamingApp \ --master local[2] \ --name sql-interactive \ /tmp/streamingpro-0.2.1-SNAPSHOT-dev-1.6.1.jar \ -streaming.name sql-interactive \ -streaming.platfo...

2016-09-10

1041

一些概念一个partition 对应一个task,一个task 必定存在于一个Executor,一个Executor 对应一个JVM. Partition 是一个可迭代数据集合 Task 本质是作用于Partition的线程问题 Task 里如何使用Kafka Producer 将数据发送到Kafaka呢。其他譬如HBase/Redis/MySQL 也是如此。解决方案直观的解决方案自然是能够在Executor(JVM)里有个Prodcuer Pool（或者共享单个Producer实例），但是我们的代码都是现在Driver端执行，然后将一些函数序列化到Executor端执行，这里就有序列化问题，正常如Pool,Connection都是无法序列化的。一个简单的解决办法是定义个Object 类，譬如 object SimpleHBaseClient { private val DEFAULT_ZOOKEEPER_QUORUM = "127.0.0.1:2181" private lazy val (table, conn) = createConnection def bulk...

2016-09-10

756

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。