Spark入门:Spark Streaming 概览

简介:

概览

Spark Streaming是Spark API的一个可横向扩容,高吞吐量,容错的实时数据流处理引擎,Spark能够从Kafka、Flume、Kinesis或者TCP等等输入获取数据,然后能够使用复杂的计算表达式如map,reduce,join和window对数据进行计算。计算完后的数据能够被推送到文件系统,数据库,和实时的仪表盘。另外,你也可以使用Spark ML和图计算处理实时数据流。

Spark Streaming接受到了实时数据后,把它们分批进行切割,然后再交给Spark进行数据的批量处理。

Spark Streaming对离散化的数据流提供了高级别的抽象DStream,所有进入的数据流都会被处理为DStreams,在内部,DStream是一个顺序排列的RDD。

快速起步

第一个实例是如何从TCP输入中计算单词出现的次数

首先,我们创建一个JavaStreamingContext对象,它是所有Streaming函数的主入口,再创建一个带有2个线程的StreamingContext对象,每1秒进行一次批处理。

 
 
  1. import org.apache.spark.*; 
  2. import org.apache.spark.api.java.function.*; 
  3. import org.apache.spark.streaming.*; 
  4. import org.apache.spark.streaming.api.java.*; 
  5. import scala.Tuple2; 
  6.  
  7. SparkConf conf = new SparkConf().setMaster("local[2]").setAppName("NetworkWordCount"); 
  8. JavaStreamingContext jssc = new JavaStreamingContext(conf, Durations.seconds(1)); 

创建一个侦听本地9999的TCP数据源

 
 
  1. JavaReceiverInputDStream<String> lines = jssc.socketTextStream("localhost", 9999); 

我们把接受到的数据按照空格进行切割

 
 
  1. JavaDStream<String> words = lines.flatMap(x -> Arrays.asList(x.split(" ")).iterator()); 

对单词进行统计

 
 
  1. JavaPairDStream<String, Integer> pairs = words.mapToPair(s -> new Tuple2<>(s, 1)); 
  2. JavaPairDStream<String, Integer> wordCounts = pairs.reduceByKey((i1, i2) -> i1 + i2);  
  3. wordCounts.print(); 

把字符串拍扁->映射->进行去重统计,最后调用print函数把数据打印到控制台中

 
 
  1. jssc.start();              // Start the computation 
  2. jssc.awaitTermination();   // Wait for the computation to terminate 

最后,启动整个计算过程

为了完成这次实验,还需要使用nc作为Server进行配合

 
 
  1. nc -lk 9999 

Spark提供了示例,可以使用 ./bin/run-example streaming.JavaNetworkWordCount localhost 9999 来体验WordCount


本文作者:小埋酱

来源:51CTO

相关文章
|
3月前
|
SQL 分布式计算 数据处理
Spark的生态系统概览:Spark SQL、Spark Streaming
Spark的生态系统概览:Spark SQL、Spark Streaming
|
4月前
|
分布式计算 Hadoop Java
Spark_Day01:Spark 框架概述和Spark 快速入门
Spark_Day01:Spark 框架概述和Spark 快速入门
51 0
|
5月前
|
消息中间件 机器学习/深度学习 分布式计算
189 Spark Streaming概述
189 Spark Streaming概述
25 0
|
12月前
|
存储 分布式计算 Scala
Spark快速入门-3-Spark的算子总结
Transformation 变换/转换算子:这类算子操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。这种变换并不触发提交作业,完成作业中间过程处理。 Action 行动算子:这类算子会触发 SparkContext 提交 Job 作业,并将数据输出 Spark 系统。
|
存储 分布式计算 并行计算
Spark GraphX 快速入门
Spark GraphX 快速入门
259 0
Spark GraphX 快速入门
|
机器学习/深度学习 分布式计算 算法
Spark 概述_Spark 的特点|学习笔记
快速学习 Spark 概述_Spark 的特点
150 0
|
机器学习/深度学习 存储 分布式计算
Spark 概述_Spark 的组成|学习笔记
快速学习 Spark 概述_Spark 的组成
109 0
Spark 概述_Spark 的组成|学习笔记
|
存储 分布式计算 算法
Spark 概述_Spark 是什么|学习笔记
快速学习 Spark 概述_Spark 是什么
119 0
Spark 概述_Spark 是什么|学习笔记
|
消息中间件 分布式计算 Java
Flink与Spark的区别
Flink与Spark的区别
2436 0
|
SQL 机器学习/深度学习 分布式计算
Flink、Spark、Storm技术对比列表
Flink、Spark、Storm技术对比列表
513 0