Structed Streaming 小案例

简介: 1 首先是官网:http://spark.apache.org/docs/latest/structured-streaming-programming-guide.ht2.注意官方文档中的着重表示的地方例如(黑体加重,斜体等) 我们都知道spark streaming 是基于spark core API 那Structed Streaming基于的是什么? 没错就是Spark SQL。

1 首先是官网:

http://spark.apache.org/docs/latest/structured-streaming-programming-guide.ht

2.注意官方文档中的着重表示的地方例如(黑体加重,斜体等)
我们都知道spark streaming 是基于spark core API
那Structed Streaming基于的是什么?

        没错就是Spark SQL。 所以DataFrame/DataSet API 包括hive的一些functions 不要太好用哦!!!

下面这句话:“you can express your streaming computaion the same way
you would express a batch computation on a static data”
就保证了我们在实际开发时的成本比较低,当我们在开发一个的应用中包含流计算和批计算。

3.特点:

可扩展性,容错性(这都是必备的好吗?)
精确的一次语义
低延迟

4.关键点:

Continuously processing

databricks的blog上这篇文章写的也很好 https://databricks.com/blog/2016/07/28/continuous-applications-evolving-streaming-in-apache-spark-2-0.html

5.做到了端到端

延时1ms时能保证至at least one 的语义
延时100ms左右时,能做到 exactly once。

6.然后就是流与其他的各种join, watermark的引入,总之和flink 相互发展促进。

Finally:最后贴一个小的 案例:

    object testSSApp extends App {

  val spark: SparkSession = SparkSession.builder().appName("baidu").master("local[2]").getOrCreate()

  //  结构化流
  private val read = spark.readStream.format("kafka")
    .option("kafka.bootstrap.servers", "host1:port1,host2:port2")
    .option("subscribe", "topic1")
    .option("maxOffsetperTrigger", "1000000")
    .option("kafkaConsumer.pollTimeoutMs", "1000")
    .load()

//读取的kafak 数据为json格式

  val result = read.selectExpr("CAST(value AS STRING)")
    .select(
      get_json_object(col("value"), path = "$.uri").alias("uri"),
      get_json_object(col("value"), path = "$.market").alias("market")
    ).groupBy(window(col("timestamp"),"5min","1min"),
    col("shop"))
    .agg(count("market").alias("uv"),
      approx_count_distinct("uri").alias("pv")).select("*")

  val query = result.writeStream.trigger(Trigger.ProcessingTime(10000)).outputMode("Update")
    .format("console").start()

//这里展示以console输出,实际中是回写到kafak或者外部存储。

  query.awaitTermination()

}
相关文章
|
5月前
|
数据挖掘 物联网 数据处理
深入探讨Apache Flink:实时数据流处理的强大框架
在数据驱动时代,企业需高效处理实时数据流。Apache Flink作为开源流处理框架,以其高性能和灵活性成为首选平台。本文详细介绍Flink的核心特性和应用场景,包括实时流处理、强大的状态管理、灵活的窗口机制及批处理兼容性。无论在实时数据分析、金融服务、物联网还是广告技术领域,Flink均展现出巨大潜力,是企业实时数据处理的理想选择。随着大数据需求增长,Flink将继续在数据处理领域发挥重要作用。
477 0
|
存储 SQL API
Flink教程(23)- Flink高级特性(Streaming File Sink)
Flink教程(23)- Flink高级特性(Streaming File Sink)
723 0
|
消息中间件 存储 Kafka
flink马屎咖啡馆案例
flink马屎咖啡馆案例
57 1
|
消息中间件 SQL 分布式计算
Spark Streaming实时计算框架
Spark Streaming实时计算框架
Spark Streaming实时计算框架
|
分布式计算 监控 网络协议
Spark Streaming开发基础
Spark Streaming开发基础
|
存储 消息中间件 分布式计算
Spark Streaming 快速入门(理论)
Spark Streaming 快速入门(理论)
262 0
Spark Streaming 快速入门(理论)
|
消息中间件 存储 分布式计算
Storm vs. Kafka Streams vs. Spark Streaming vs. Flink ,流式处理框架一网打尽!1
Storm vs. Kafka Streams vs. Spark Streaming vs. Flink ,流式处理框架一网打尽!1
349 0
Storm vs. Kafka Streams vs. Spark Streaming vs. Flink ,流式处理框架一网打尽!1
|
消息中间件 jstorm 分布式计算
Storm vs. Kafka Streams vs. Spark Streaming vs. Flink ,流式处理框架一网打尽!2
Storm vs. Kafka Streams vs. Spark Streaming vs. Flink ,流式处理框架一网打尽!2
499 0
Storm vs. Kafka Streams vs. Spark Streaming vs. Flink ,流式处理框架一网打尽!2
|
消息中间件 存储 分布式计算
Flink实战(八) - Streaming Connectors 编程(上)
Flink实战(八) - Streaming Connectors 编程(上)
420 0
Flink实战(八) - Streaming Connectors 编程(上)
|
消息中间件 存储 资源调度
Flink实战(八) - Streaming Connectors 编程(下)
Flink实战(八) - Streaming Connectors 编程(下)
326 0
Flink实战(八) - Streaming Connectors 编程(下)