spark streaming知识总结[优化]

2023-01-13 226

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： spark streaming知识总结[优化]

RDD与job之间的关系

Spark Streaming是构建在Spark上的实时流计算框架，扩展了Spark流式大数据处理能

力。Spark Streaming将数据流以时间片为单位分割形成RDD，使用RDD操作处理每一块数

据，每块数据（也就是RDD）都会生成一个Spark Job进行处理，最终以批处理的方式处理

每个时间片的数据

说明：Spark中的Job和MR中Job不一样不一样。MR中Job主要是Map或者Reduce Job。而Spark的Job其实很好区别，RDD一个action算子就算一个Job.

什么是batch

Spark Streaming生成新的batch并对它进行一些处理，每个batch中的数据都代表一个RDD

理解batch

间隔时间开始会创建，间隔时间内会积累

设置时间间隔的理解

我们知道spark streaming有个时间间隔。假如间隔为1秒，它是停下1秒，然后在接受1秒的数据，也就是说是间隔1秒，然后在接受1秒数据，还是说接受1秒的数据。这里表面上没有太大的区别，其实在于理解的到不到位。说白了batch封装的是1秒的数据。

batch创建

batch在时间间隔开始被创建，在间隔时间内任何到达的数据都被添加到批数据中，间隔时间结束，batch创建结束。

什么是batch间隔参数

间隔时间大小的参数被称之为batch间隔参数

batch间隔范围一般为

500 毫秒到几分钟，由开发者定义。

spark streaming应用

spark streaming应用程序可以实时跟踪页面统计，训练机器学习模型或则自动检测异常，更多推荐参考

让你真正明白spark streaming

http://www.aboutyun.com/forum.php?mod=viewthread&tid=21141

DStreams详解

DStreams是discretized streams的缩写，是离散流的意思。

DStreams是随着时间【推移】到达的一系列数据

每个dstream被表示为一个序列的RDDS（因此名称“离散”）。

DStreams可以不同的数据源创建，比如flume，kafka，或则hdfs.一旦构建，

DStreams提供两种类型的操作：

transformations,产生一个新的DStream

output operations，写数据到外部系统。

DStreams提供许多与RDD相同的操作，外加一些关于时间的操作比如slidingwindows【滑动窗口】。

DStreams来源

1.外部数据源

2.通过transformations转换而来

Transformations操作

分为有状态和无状态

Stateful transformations需要checkpointing，在StreamingContext中启用容错。

设置checkpointing

ssc.checkpoint("hdfs://...")

Windowed transformations

window操作需要两个参数，窗口持续时间和滑动持续时间。这两个必须是多个StreamingContext的batch时间区间。DStream数据源时间间隔是10秒。想创建滑动窗口上一个30秒（或则上3batches)），我们应该设置windowDuration30秒。sliding时间间隔，默认是batch时间间隔，控制DStream刷新计算结果。如果我们的DStream batch时间区间为10秒，我们想计算我们的window，只能在每个第二batch。我们设置我们的sliding间隔为20秒。

输出操作

保存DStream 为文本文件【Scala】

[Scala]

ipAddressRequestCount.saveAsTextFiles("outputDir", "txt")

saveAsHadoopFiles()是hadoop输出格式，例如Spark Streaming没有SaveAsSequenceFile()函数，我们可以保存为SequenceFiles

Scala

val writableIpAddressRequestCount = ipAddressRequestCount.map {
(ip, count) => (new Text(ip), new LongWritable(count)) }
writableIpAddressRequestCount.saveAsHadoopFiles[
SequenceFileOutputFormat[Text, LongWritable]]("outputDir", "txt")

Java

JavaPairDStream<Text, LongWritable> writableDStream = ipDStream.mapToPair(
new PairFunction<Tuple2<String, Long>, Text, LongWritable>() {
public Tuple2<Text, LongWritable> call(Tuple2<String, Long> e) {
return new Tuple2(new Text(e._1()), new LongWritable(e._2()));
}});
class OutFormat extends SequenceFileOutputFormat<Text, LongWritable> {};
writableDStream.saveAsHadoopFiles(
"outputDir", "txt", Text.class, LongWritable.class, OutFormat.class);

foreachRDD()

ipAddressRequestCount.foreachRDD { rdd =>
rdd.foreachPartition { partition =>
// Open connection to storage system (e.g. a database connection)
partition.foreach { item =>
// Use connection to push item to system
}
// Close connection
}
}

checkpointing机制

spark streaming主要机制checkpointing,它将数据存储在一个可靠的文件系统，比如hdfs.

checkpoint的作用，用于恢复数据。它会定期保存状态到可靠的文件系统比如hdfs,s3

比如你每5-10批数据设置checkpointing。当发生丢失数据的时候，Spark Streaming讲恢复最近的checkpoint.随着 streaming application 的持续运行，checkpoint 数据占用的存储空间会不断变大。因此，需要小心设置checkpoint 的时间间隔。设置得越小，checkpoint 次数会越多，占用空间会越大；如果设置越大，会导致恢复时丢失的数据和进度越多。一般推荐设置为 batch duration 的5~10倍。

输入源

spark streaming支持多个数据源，一些核心的数据源，已被构建到Streaming Maven artifact,其它可以通过额外的artifact，比如spark-streaming-kafka.

核心数据源比如sockets，还有文件和 Akka actors.

其它数据源

使用kafka必须引入artifact：spark-streaming-kafka_2.10到项目中。它提供KafkaUtils对象，通过StreamingContext 和 JavaStreamingContext创建kafka消息的DStream.

因为它订阅多个topic. DStream创建由topic 和 message组成的对。我们可以调用createStream()方法来创建Stream。字符串分割开ZooKeeper hosts, consumer group的名称（唯一的名字），receiver 线程用于topic.

Apache Kafka 订阅Panda的topic【Scala】

import org.apache.spark.streaming.kafka._
...
// Create a map of topics to number of receiver threads to use
val topics = List(("pandas", 1), ("logs", 1)).toMap
val topicLines = KafkaUtils.createStream(ssc, zkQuorum, group, topics)
StreamingLogInput.processLines(topicLines.map(_._2))

Apache Kafka 订阅 to Panda’s topic【Java】

import org.apache.spark.streaming.kafka.*;
...
// Create a map of topics to number of receiver threads to use
Map<String, Integer> topics = new HashMap<String, Integer>();
topics.put("pandas", 1);
topics.put("logs", 1);
JavaPairDStream<String, String> input =
KafkaUtils.createStream(jssc, zkQuorum, group, topics);
input.print();

spark streaming知识总结[优化]

RDD与job之间的关系

什么是batch

理解batch

设置时间间隔的理解

batch创建

什么是batch间隔参数

batch间隔范围一般为

spark streaming应用

DStreams详解

DStreams来源

Transformations操作

Windowed transformations

输出操作

checkpointing机制

输入源

其它数据源

热门文章

最新文章

相关课程

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

spark streaming知识总结[优化]

RDD与job之间的关系

什么是batch

理解batch

设置时间间隔的理解

batch创建

什么是batch间隔参数

batch间隔范围一般为

spark streaming应用

DStreams详解

DStreams来源

Transformations操作

Windowed transformations

输出操作

checkpointing机制

输入源

其它数据源

热门文章

最新文章

相关课程

相关电子书