Spark 如何写入HBase/Redis/MySQL/Kafka-低调大师

Spark 如何写入HBase/Redis/MySQL/Kafka

2016-09-10 804

一些概念

一个partition 对应一个task,一个task 必定存在于一个Executor,一个Executor 对应一个JVM.

Partition 是一个可迭代数据集合
Task 本质是作用于Partition的线程

问题

Task 里如何使用Kafka Producer 将数据发送到Kafaka呢。其他譬如HBase/Redis/MySQL 也是如此。

解决方案

直观的解决方案自然是能够在Executor(JVM)里有个Prodcuer Pool（或者共享单个Producer实例），但是我们的代码都是现在Driver端执行，然后将一些函数序列化到Executor端执行，这里就有序列化问题，正常如Pool,Connection都是无法序列化的。

一个简单的解决办法是定义个Object 类，

譬如

object SimpleHBaseClient {
  private val DEFAULT_ZOOKEEPER_QUORUM = "127.0.0.1:2181"

  private lazy val (table, conn) = createConnection

  def bulk(items:Iterator) = {
      items.foreach(conn.put(_))
      conn.flush....
  } 
 ......
}

然后保证这个类在map,foreachRDD等函数下使用，譬如：

dstream.foreachRDD{ rdd =>
    rdd.foreachPartition{iter=>
        SimpleHBaseClient.bulk(iter)  
    }
}

为什么要保证放到foreachRDD /map 等这些函数里呢？Spark的机制是先将用户的程序作为一个单机运行(运行者是Driver)，Driver通过序列化机制，将对应算子规定的函数发送到Executor进行执行。这里，foreachRDD/map 等函数都是会发送到Executor执行的，Driver端并不会执行。里面引用的object 类会作为一个stub 被序列化过去，object内部属性的的初始化其实是在Executor端完成的，所以可以避过序列化的问题。

Pool也是类似的做法。然而我们并不建议使用pool,因为Spark 本身已经是分布式的，举个例子可能有100个executor,如果每个executor再搞10个connection的pool,则会有100*10 个链接，Kafka也受不了。一个Executor 维持一个connection就好。

关于Executor挂掉丢数据的问题，其实就看你什么时候flush,这是一个性能的权衡。

微信关注我们

原文链接：https://yq.aliyun.com/articles/60482

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Spark-python-快速开始

1. 概览这篇文章主要是关于Spark的快速熟悉和使用，我们使用Python和Spark的shell接口来操作Spark。 Spark shell使得我们可以很简单的学习Spark的Api，同时也是一个强大数据分析交互的工具。 2. Spark shell 我们使用Python版本的Spark工具pyspark，前提是Spark的安装路径已经加到环境变量PATH中，否则会报找不到命令特别说明: >>>表示的所pyspark的命令 ./bin/pyspark Spark核心的抽象是弹性分布式数据集合，我们称为RDD（Resilient Distributed Dataset）。一个RDD可以从输入文件中产生比如HDFS文件，也可以从其他RDD转换而来。我们通过读取本地文件text.dat来创建一个新的RDD hadoop@ubuntu:~/github$ cat text.dat spark i love you >>> textFile = sc.textFile("text.dat") RDD包括两种运算操作，action和transform...

2016-09-10

730

前言今天介绍利用 StreamingPro 完成批处理的流程。准备工作下载StreamingPro README中有下载地址我们假设您将文件放在了/tmp目录下。填写配置文件实例一,我要把数据从ES导出到HDFS,并且形成csv格式。 gist 启动StreamingPro Local模式： cd $SPARK_HOME ./bin/spark-submit --class streaming.core.StreamingApp \ --master local[2] \ --name test \ /tmp/streamingpro-0.2.1-SNAPSHOT-dev-1.6.1.jar \ -streaming.name test \ -streaming.platform spark \ -streaming.job.file.path file:///tmp/test.json 访问 http://127.0.0.1:4040 可进入Spark UI 集群模式： cd $SPARK_HOME ./bin/spark-submit --class streaming...

2016-09-10

815

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。