Spark2.11 两种流操作 + Kafka-低调大师

Spark2.11 两种流操作 + Kafka

2017-11-11 642

Spark2.x 自从引入了 Structured Streaming 后，未来数据操作将逐步转化到 DataFrame/DataSet，以下将介绍 Spark2.x 如何与 Kafka0.10+整合

Structured Streaming + Kafka

引包

groupId = org.apache.spark
artifactId = spark-sql-kafka-0-10_2.11
version = 2.1.1

为了让更直观的展示包的依赖，以下是我的工程 sbt 文件

name := "spark-test"
version := "1.0"
scalaVersion := "2.11.7"
// https://mvnrepository.com/artifact/org.apache.spark/spark-core_2.11
libraryDependencies += "org.apache.spark" % "spark-core_2.11" % "2.1.1" % "provided"
// https://mvnrepository.com/artifact/org.apache.spark/spark-mllib_2.11
libraryDependencies += "org.apache.spark" % "spark-mllib_2.11" % "2.1.1" % "provided"
// https://mvnrepository.com/artifact/org.apache.spark/spark-streaming_2.11
libraryDependencies += "org.apache.spark" % "spark-streaming_2.11" % "2.1.1" % "provided"
// https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-client
libraryDependencies += "org.apache.hadoop" % "hadoop-client" % "2.7.3"
// https://mvnrepository.com/artifact/mysql/mysql-connector-java
libraryDependencies += "mysql" % "mysql-connector-java" % "5.1.38"
// https://mvnrepository.com/artifact/org.apache.kafka/kafka_2.11
libraryDependencies += "org.apache.kafka" % "kafka_2.11" % "0.10.2.1"
//libraryDependencies += "org.apache.spark" % "spark-streaming-kafka-0-10_2.11" % "2.1.1"
libraryDependencies += "org.apache.spark" % "spark-sql-kafka-0-10_2.11" % "2.1.1"

Structured Streaming 连接 Kafka

def main(args: Array[String]): Unit = {

    val spark = SparkSession
      .builder()
      .appName("Spark structured streaming Kafka example")
      //      .master("local[2]")
      .getOrCreate()

    val inputstream = spark.readStream
      .format("kafka")
      .option("kafka.bootstrap.servers", "127.0.0.1:9092")
      .option("subscribe", "testss")
      .load()
    import spark.implicits._
    val query = inputstream.select($"key", $"value")
      .as[(String, String)].map(kv => kv._1 + " " + kv._2).as[String]
      .writeStream
      .outputMode("append")
      .format("console")
      .start()

    query.awaitTermination()
  }

流的元数据如下

Column	Type
key	binary
value	binary
topic	string
partition	int
offset	long
timestamp	long
timestampType	int

可配参数

Option	value	meaning
assign	json string {"topicA":[0,1],"topicB":[2,4]}	用于指定消费的 TopicPartitions，`assign`，`subscribe`，`subscribePattern`是三种消费方式，只能同时指定一个
subscribe	A comma-separated list of topics	用于指定要消费的 topic
subscribePattern	Java regex string	使用正则表达式匹配消费的 topic
kafka.bootstrap.servers	A comma-separated list of host:port	kafka brokers

不能配置的参数

group.id: 对每个查询，kafka 自动创建一个唯一的 group
auto.offset.reset: 可以通过 startingOffsets 指定，Structured Streaming 会对任何流数据维护 offset, 以保证承诺的 exactly once.
key.deserializer: 在 DataFrame 上指定，默认 ByteArrayDeserializer
value.deserializer: 在 DataFrame 上指定，默认 ByteArrayDeserializer
enable.auto.commit:
interceptor.classes:

Stream + Kafka

从最新offset开始消费

def main(args: Array[String]): Unit = {
	val kafkaParams = Map[String, Object](
	  "bootstrap.servers" -> "localhost:9092",
	  "key.deserializer" -> classOf[StringDeserializer],
	  "value.deserializer" -> classOf[StringDeserializer],
	  "group.id" -> "use_a_separate_group_id_for_each_stream",
	  "auto.offset.reset" -> "latest",
	  "enable.auto.commit" -> (false: java.lang.Boolean)
	)

	val ssc =new StreamingContext(OpContext.sc, Seconds(2))
	val topics = Array("test")
	val stream = KafkaUtils.createDirectStream[String, String](
	  ssc,
	  PreferConsistent,
	  Subscribe[String, String](topics, kafkaParams)
	)
	stream.foreachRDD(rdd=>{
	  val offsetRanges=rdd.asInstanceOf[HasOffsetRanges].offsetRanges
	  rdd.foreachPartition(iter=>{
		val o: OffsetRange = offsetRanges(TaskContext.get.partitionId)
		println(s"${o.topic} ${o.partition} ${o.fromOffset} ${o.untilOffset}")
	  })
	  stream.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges)
	})

//    stream.map(record => (record.key, record.value)).print(1)
	ssc.start()
	ssc.awaitTermination()
  }

从指定的offset开始消费

def main(args: Array[String]): Unit = {
  val kafkaParams = Map[String, Object](
	"bootstrap.servers" -> "localhost:9092",
	"key.deserializer" -> classOf[StringDeserializer],
	"value.deserializer" -> classOf[StringDeserializer],
	"group.id" -> "use_a_separate_group_id_for_each_stream",
	//      "auto.offset.reset" -> "latest",
	"enable.auto.commit" -> (false: java.lang.Boolean)
  )
  val ssc = new StreamingContext(OpContext.sc, Seconds(2))
  val fromOffsets = Map(new TopicPartition("test", 0) -> 1100449855L)
  val stream = KafkaUtils.createDirectStream[String, String](
	ssc,
	PreferConsistent,
	Assign[String, String](fromOffsets.keys.toList, kafkaParams, fromOffsets)
  )

  stream.foreachRDD(rdd => {
	val offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges
	for (o <- offsetRanges) {
	  println(s"${o.topic} ${o.partition} ${o.fromOffset} ${o.untilOffset}")
	}
	stream.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges)
  })

  //    stream.map(record => (record.key, record.value)).print(1)
  ssc.start()
  ssc.awaitTermination()
}

本文转自lzwxx 51CTO博客，原文链接:http://blog.51cto.com/13064681/1943431

微信关注我们

原文链接：https://yq.aliyun.com/articles/554659

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Structured Streaming 之窗口事件时间聚合操作

Spark Streaming中Exactly Once指的是：每条数据从输入源传递到Spark应用程序Exactly Once 每条数据只会分到Exactly Oncebatch处理输出端文件系统保证幂等关系 Structured Streaming返回的是DataFrame/DataSet，我们可以对其应用各种操作 - 从无类型，类似 SQL 的操作（例如select，where，groupBy）到类型化的 RDD 类操作（例如map，filter，flatMap）。基本操作：选择，投影，聚合 caseclassDeviceData(device:String,deviceType:String, signal:Double,time:DateTime) valdf:DataFrame=...//streamingDataFramewithIOTdevicedatawithschema{device:string,deviceType:string,signal:double,time:string} valds:Dataset[DeviceData]=df.as[Devic...

2017-11-11

783

工作中经常在shell脚本中看到set的这两个用法，但就像生活中的很多事情，习惯导致忽视，直到出现问题才引起关注。1.set-eset命令的-e参数，linux自带的说明如下："Exitimmediatelyifasimplecommandexitswithanon-zerostatus."也就是说，在"set-e"之后出现的代码，一旦出现了返回值非零，整个脚本就会立即退出。有的人喜欢使用这个参数，是出于保证代码安全性的考虑。但有的时候，这种美好的初衷，也会导致严重的问题。真实案例：脚本a.sh开头使用了"set-e"，且能正常运行。在几个月或更久以后，因需求升级，在脚本中增加了3行hadoop操作： 1 2 3 4 5 6 7 #!/bin/bash set -e ... /home/work/ ... /hadoop dfs-rmr /app/ ... /dir /home/work/ ... /hadoop dfs- mkdir /app/ ... /dir /home/work/ ... /hadoop dfs-putfile_1 /app/ ... /dir/ ... 这几行...

2017-11-11

648

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。