Spark Streaming实时流处理项目实战笔记——实战之黑名单过滤

简介: Spark Streaming实时流处理项目实战笔记——实战之黑名单过滤

思路




源代码



窗口函数



代码实现


object Black extends App {
  import org.apache.spark.SparkConf
  import org.apache.spark.streaming.{Seconds, StreamingContext}
    val sparkConf = new SparkConf().setMaster("local[2]").setAppName("WordCount")
    val ssc = new StreamingContext(sparkConf,Seconds(5))
    /**
      * 构建黑名单
      */
    val blacks = List("zs","ls")
    val  blacksRDD = ssc.sparkContext.parallelize(blacks).map(x=>(x,true))
    //for(x<-blacksRDD){
    //  println(x)
    //}
    val lines = ssc.socketTextStream("hadoop2", 9999)
    val clicklog = lines.map(x=>(x.split(",")(1),x)).transform(rdd=>{
        rdd.leftOuterJoin(blacksRDD)
        .filter(x=>x._2._2.getOrElse(false)!=true)
        .map(x=>x._2._1)
    })
    clicklog.print()
    ssc.start()
    ssc.awaitTermination()
}


 


目录
打赏
0
0
0
0
3
分享
相关文章
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
237 2
ClickHouse与大数据生态集成:Spark & Flink 实战
大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新
大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新
78 0
大数据-103 Spark Streaming Kafka Offset管理详解 Scala自定义Offset
大数据-103 Spark Streaming Kafka Offset管理详解 Scala自定义Offset
126 0
【赵渝强老师】Spark Streaming中的DStream
本文介绍了Spark Streaming的核心概念DStream,即离散流。DStream通过时间间隔将连续的数据流转换为一系列不连续的RDD,再通过Transformation进行转换,实现流式数据的处理。文中以MyNetworkWordCount程序为例,展示了DStream生成RDD的过程,并附有视频讲解。
大数据-102 Spark Streaming Kafka ReceiveApproach DirectApproach 附带Producer、DStream代码案例
大数据-102 Spark Streaming Kafka ReceiveApproach DirectApproach 附带Producer、DStream代码案例
84 0
195 Spark Streaming整合Kafka完成网站点击流实时统计
195 Spark Streaming整合Kafka完成网站点击流实时统计
103 0
【Spark Streaming】(五)Spark Streaming 与 Kafka 集成实战!
【Spark Streaming】(五)Spark Streaming 与 Kafka 集成实战!
687 0
【Spark Streaming】(五)Spark Streaming 与 Kafka 集成实战!
Spark Streaming实时流处理项目实战笔记——使用KafkaSInk将Flume收集到的数据输出到Kafka
Spark Streaming实时流处理项目实战笔记——使用KafkaSInk将Flume收集到的数据输出到Kafka