Kafka连接SparkStreaming的两种方式-低调大师

Kafka连接SparkStreaming的两种方式

2017-11-19 551

第一种方式代码:

 1 import org.apache.spark.storage.StorageLevel
 2 import org.apache.spark.{HashPartitioner, SparkConf}
 3 import org.apache.spark.streaming.kafka.KafkaUtils
 4 import org.apache.spark.streaming.{Seconds, StreamingContext}
 5 
 6 object KafkaWordCount {
 7   val updateFunc = (iter: Iterator[(String, Seq[Int], Option[Int])]) => {
 8     //iter.flatMap(it=>Some(it._2.sum + it._3.getOrElse(0)).map(x=>(it._1,x)))
 9     iter.flatMap { case (x, y, z) => Some(y.sum + z.getOrElse(0)).map(i => (x, i)) }
10   }
11 
12   def main(args: Array[String]) {
13     LoggerLevels.setStreamingLogLevels()
14     val Array(zkQuorum, group, topics, numThreads) = args
15     val sparkConf = new SparkConf().setAppName("KafkaWordCount").setMaster("local[2]")
16     val ssc = new StreamingContext(sparkConf, Seconds(5))
17     ssc.checkpoint("c://ck2")
18     //"alog-2016-04-16,alog-2016-04-17,alog-2016-04-18"
19     //"Array((alog-2016-04-16, 2), (alog-2016-04-17, 2), (alog-2016-04-18, 2))"
20     val topicMap = topics.split(",").map((_, numThreads.toInt)).toMap
21     val data = KafkaUtils.createStream(ssc, zkQuorum, group, topicMap, StorageLevel.MEMORY_AND_DISK_SER)
22     val words = data.map(_._2).flatMap(_.split(" "))
23     val wordCounts = words.map((_, 1)).updateStateByKey(updateFunc, new HashPartitioner(ssc.sparkContext.defaultParallelism), true)
24     wordCounts.print()//老师给的代码文件中没有这句话  必须要有一个Action,否则报错
25     //java.lang.IllegalArgumentException: requirement failed: No output operations registered, so nothing to execute
26     ssc.start()
27     ssc.awaitTermination()
28   }
29 }

第二种方式代码:

 1 import kafka.serializer.StringDecoder
 2 import org.apache.log4j.{Level, Logger}
 3 import org.apache.spark.SparkConf
 4 import org.apache.spark.rdd.RDD
 5 import org.apache.spark.streaming.kafka.{KafkaManager, KafkaUtils}
 6 import org.apache.spark.streaming.{Seconds, StreamingContext}
 7 
 8 
 9 object DirectKafkaWordCount {
10 
11   /*  def dealLine(line: String): String = {
12       val list = line.split(',').toList
13   //    val list = AnalysisUtil.dealString(line, ',', '"')// 把dealString函数当做split即可
14       list.get(0).substring(0, 10) + "-" + list.get(26)
15     }*/
16 
17   def processRdd(rdd: RDD[(String, String)]): Unit = {
18     val lines = rdd.map(_._2)
19     val words = lines.map(_.split(" "))
20     val wordCounts = words.map(x => (x, 1L)).reduceByKey(_ + _)
21     wordCounts.foreach(println)
22   }
23 
24   def main(args: Array[String]) {
25     if (args.length < 3) {
26       System.err.println(
27         s"""
28            |Usage: DirectKafkaWordCount <brokers> <topics> <groupid>
29            |  <brokers> is a list of one or more Kafka brokers
30            |  <topics> is a list of one or more kafka topics to consume from
31            |  <groupid> is a consume group
32            |
33         """.stripMargin)
34       System.exit(1)
35     }
36 
37     Logger.getLogger("org").setLevel(Level.WARN)
38 
39     val Array(brokers, topics, groupId) = args
40 
41     // Create context with 2 second batch interval
42     val sparkConf = new SparkConf().setAppName("DirectKafkaWordCount")
43     sparkConf.setMaster("local[*]")
44     sparkConf.set("spark.streaming.kafka.maxRatePerPartition", "5")
45     sparkConf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
46 
47     val ssc = new StreamingContext(sparkConf, Seconds(2))
48 
49     // Create direct kafka stream with brokers and topics
50     val topicsSet = topics.split(",").toSet
51     val kafkaParams = Map[String, String](
52       "metadata.broker.list" -> brokers,
53       "group.id" -> groupId,
54       "auto.offset.reset" -> "smallest"
55     )
56 
57     val km = new KafkaManager(kafkaParams)
58 
59     val messages = km.createDirectStream[String, String, StringDecoder, StringDecoder](
60       ssc, kafkaParams, topicsSet)
61 
62     messages.foreachRDD(rdd => {
63       if (!rdd.isEmpty()) {
64         // 先处理消息
65         processRdd(rdd)
66         // 再更新offsets
67         km.updateZKOffsets(rdd)
68       }
69     })
70 
71     ssc.start()
72     ssc.awaitTermination()
73   }
74 }

本文转自SummerChill博客园博客，原文链接：http://www.cnblogs.com/DreamDrive/p/6810238.html，如需转载请自行联系原作者

微信关注我们

原文链接：https://yq.aliyun.com/articles/376400

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

大数据安全之Hadoop生态圈背后不可忽视的隐藏“凶险”

伴随互联网的高速发展，大数据成为炙手可热的时髦产物。随之而来的是关于大数据的存储与计算问题。作为能够对大量数据进行分布式处理的软件框架——Hadoop目前已经发展成为分析大数据的领先平台，它能够以一种可靠、高效、可伸缩的方式进行数据处理。 Hadoop生态圈的形成大数据是个宽泛的问题，而Hadoop生态圈是最佳的大数据的解决方案。Hadoop生态圈的所有内容基本都是为了处理超过单机范畴的数据而产生的。 HDFS＆MapReduce 在最开始阶段Hadoop只包含HDFS（Hadoop Distributed FileSystem）和MapReduce两个组件。HDFS的设计本质是为解决大量数据分别存储于成百上千台机器上的问题，让客户看到的是一个文件系统而非很多文件系统，屏蔽复杂的底层调用。好比用户想要取/liusicheng/home/test1下的数据，只需要得到准确的路径即可获得数据，至于数据实际上被存放在不同的机器上这点用户根本不需要关心。HDFS帮助客户管理分散在不同机器上的PG级数据。这些数据如果都放在一台机器上处理，一定会导致恐怖的等待时间。于是，客户选择使用很多台机器处...

2017-11-20

483

更多有用的例子和算子讲解参见: http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html map是对每个元素操作, mapPartitions是对其中的每个partition操作 ------------------------------------------------------------------------------------------- ------------------------------------------------------------------------------------------- mapPartitionsWithIndex : 把每个partition中的分区号和对应的值拿出来, 看源码 val func = (index: Int, iter: Iterator[(Int)]) => { iter.toList.map(x => "[partID:" + index + ", val: " + x + "]").iterator ...

2017-11-20

525

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。