Kafka连接SparkStreaming的两种方式

简介:

第一种方式代码:

复制代码
 1 import org.apache.spark.storage.StorageLevel
 2 import org.apache.spark.{HashPartitioner, SparkConf}
 3 import org.apache.spark.streaming.kafka.KafkaUtils
 4 import org.apache.spark.streaming.{Seconds, StreamingContext}
 5 
 6 object KafkaWordCount {
 7   val updateFunc = (iter: Iterator[(String, Seq[Int], Option[Int])]) => {
 8     //iter.flatMap(it=>Some(it._2.sum + it._3.getOrElse(0)).map(x=>(it._1,x)))
 9     iter.flatMap { case (x, y, z) => Some(y.sum + z.getOrElse(0)).map(i => (x, i)) }
10   }
11 
12   def main(args: Array[String]) {
13     LoggerLevels.setStreamingLogLevels()
14     val Array(zkQuorum, group, topics, numThreads) = args
15     val sparkConf = new SparkConf().setAppName("KafkaWordCount").setMaster("local[2]")
16     val ssc = new StreamingContext(sparkConf, Seconds(5))
17     ssc.checkpoint("c://ck2")
18     //"alog-2016-04-16,alog-2016-04-17,alog-2016-04-18"
19     //"Array((alog-2016-04-16, 2), (alog-2016-04-17, 2), (alog-2016-04-18, 2))"
20     val topicMap = topics.split(",").map((_, numThreads.toInt)).toMap
21     val data = KafkaUtils.createStream(ssc, zkQuorum, group, topicMap, StorageLevel.MEMORY_AND_DISK_SER)
22     val words = data.map(_._2).flatMap(_.split(" "))
23     val wordCounts = words.map((_, 1)).updateStateByKey(updateFunc, new HashPartitioner(ssc.sparkContext.defaultParallelism), true)
24     wordCounts.print()//老师给的代码文件中没有这句话  必须要有一个Action,否则报错
25     //java.lang.IllegalArgumentException: requirement failed: No output operations registered, so nothing to execute
26     ssc.start()
27     ssc.awaitTermination()
28   }
29 }
复制代码

第二种方式代码:

复制代码
 1 import kafka.serializer.StringDecoder
 2 import org.apache.log4j.{Level, Logger}
 3 import org.apache.spark.SparkConf
 4 import org.apache.spark.rdd.RDD
 5 import org.apache.spark.streaming.kafka.{KafkaManager, KafkaUtils}
 6 import org.apache.spark.streaming.{Seconds, StreamingContext}
 7 
 8 
 9 object DirectKafkaWordCount {
10 
11   /*  def dealLine(line: String): String = {
12       val list = line.split(',').toList
13   //    val list = AnalysisUtil.dealString(line, ',', '"')// 把dealString函数当做split即可
14       list.get(0).substring(0, 10) + "-" + list.get(26)
15     }*/
16 
17   def processRdd(rdd: RDD[(String, String)]): Unit = {
18     val lines = rdd.map(_._2)
19     val words = lines.map(_.split(" "))
20     val wordCounts = words.map(x => (x, 1L)).reduceByKey(_ + _)
21     wordCounts.foreach(println)
22   }
23 
24   def main(args: Array[String]) {
25     if (args.length < 3) {
26       System.err.println(
27         s"""
28            |Usage: DirectKafkaWordCount <brokers> <topics> <groupid>
29            |  <brokers> is a list of one or more Kafka brokers
30            |  <topics> is a list of one or more kafka topics to consume from
31            |  <groupid> is a consume group
32            |
33         """.stripMargin)
34       System.exit(1)
35     }
36 
37     Logger.getLogger("org").setLevel(Level.WARN)
38 
39     val Array(brokers, topics, groupId) = args
40 
41     // Create context with 2 second batch interval
42     val sparkConf = new SparkConf().setAppName("DirectKafkaWordCount")
43     sparkConf.setMaster("local[*]")
44     sparkConf.set("spark.streaming.kafka.maxRatePerPartition", "5")
45     sparkConf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
46 
47     val ssc = new StreamingContext(sparkConf, Seconds(2))
48 
49     // Create direct kafka stream with brokers and topics
50     val topicsSet = topics.split(",").toSet
51     val kafkaParams = Map[String, String](
52       "metadata.broker.list" -> brokers,
53       "group.id" -> groupId,
54       "auto.offset.reset" -> "smallest"
55     )
56 
57     val km = new KafkaManager(kafkaParams)
58 
59     val messages = km.createDirectStream[String, String, StringDecoder, StringDecoder](
60       ssc, kafkaParams, topicsSet)
61 
62     messages.foreachRDD(rdd => {
63       if (!rdd.isEmpty()) {
64         // 先处理消息
65         processRdd(rdd)
66         // 再更新offsets
67         km.updateZKOffsets(rdd)
68       }
69     })
70 
71     ssc.start()
72     ssc.awaitTermination()
73   }
74 }
复制代码




本文转自SummerChill博客园博客,原文链接:http://www.cnblogs.com/DreamDrive/p/6810238.html,如需转载请自行联系原作者

相关文章
|
消息中间件 关系型数据库 MySQL
Flink--6、输出算子(连接到外部系统、文件、kafka、MySQL、自定义Sink)
Flink--6、输出算子(连接到外部系统、文件、kafka、MySQL、自定义Sink)
|
消息中间件 数据可视化 关系型数据库
(3)sparkstreaming从kafka接入实时数据流最终实现数据可视化展示
1)我们通过kafka与各个业务系统的数据对接,将各系统中的数据实时接到kafka; 2)通过sparkstreaming接入kafka数据流,定义时间窗口和计算窗口大小,业务计算逻辑处理; 3)将结果数据写入到mysql; 4)通过可视化平台接入mysql数据库,这里使用的是NBI大数据可视化构建平台; 5)在平台上通过拖拽式构建各种数据应用,数据展示;
(3)sparkstreaming从kafka接入实时数据流最终实现数据可视化展示
|
3月前
|
消息中间件 前端开发 Kafka
【Azure 事件中心】使用Apache Flink 连接 Event Hubs 出错 Kafka error: No resolvable bootstrap urls
【Azure 事件中心】使用Apache Flink 连接 Event Hubs 出错 Kafka error: No resolvable bootstrap urls
|
6月前
|
消息中间件 分布式计算 Kafka
SparkStreaming(SparkStreaming概述、入门、Kafka数据源、DStream转换、输出、关闭)
SparkStreaming(SparkStreaming概述、入门、Kafka数据源、DStream转换、输出、关闭)(一)
|
5月前
|
消息中间件 存储 Kafka
实时计算 Flink版产品使用问题之 从Kafka读取数据,并与两个仅在任务启动时读取一次的维度表进行内连接(inner join)时,如果没有匹配到的数据会被直接丢弃还是会被存储在内存中
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
1月前
|
消息中间件 资源调度 大数据
大数据-112 Flink DataStreamAPI 程序输入源 DataSource 基于文件、集合、Kafka连接器
大数据-112 Flink DataStreamAPI 程序输入源 DataSource 基于文件、集合、Kafka连接器
32 0
|
3月前
|
消息中间件 Java Kafka
【Azure 事件中心】开启 Apache Flink 制造者 Producer 示例代码中的日志输出 (连接 Azure Event Hub Kafka 终结点)
【Azure 事件中心】开启 Apache Flink 制造者 Producer 示例代码中的日志输出 (连接 Azure Event Hub Kafka 终结点)
|
4月前
|
消息中间件 监控 Java
查询Kafka生产者是否连接到Kafka服务
查询Kafka生产者是否连接到Kafka服务
215 2
|
5月前
|
消息中间件 算法 Java
go语言并发实战——日志收集系统(三) 利用sarama包连接KafKa实现消息的生产与消费
go语言并发实战——日志收集系统(三) 利用sarama包连接KafKa实现消息的生产与消费
|
6月前
|
消息中间件 Oracle 关系型数据库
实时计算 Flink版操作报错之连接外部kafka本地执行测试代码报错如何解决
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。

热门文章

最新文章

下一篇
无影云桌面