备案控制台

开发者社区问答正文

Spark Streaming中的JobGenerator的作用是什么？

Spark Streaming中的JobGenerator的作用是什么？

展开

收起

游客daliwbfb2wo66 2021-12-07 20:40:18 462 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

游客k7rjnht6hbtk6

1.通知ReceiverTracker将接收到的数据进行提交，在提交时采用synchronized关键字进行处理，保证每条数据被划入一个且只被划入一个批次中。

2.要求DStreamGraph根据DSream依赖关系生成作业序列Seq[Job]。

3.从第一步中ReceiverTracker获取本批次数据的元数据。

4.把批处理时间time、作业序列Seq[Job]和本批次数据的元数据包装为JobSet，调用JobScheduler.submitJobSet(JobSet)提交给JobScheduler，JobScheduler将把这些作业发送给Spark核心进行处理，由于该执行为异步，因此本步执行速度将非常快。

5.只要提交结束（不管作业是否被执行），SparkStreaming对整个系统做一个检查点（Checkpoint）

2021-12-07 20:41:01

赞同展开评论

问答分类：

分布式计算流计算 Spark

问答地址：

开发者社区 > 大数据 > 问答

相关问答

流式计算 Spark Streaming 如何应treaming 如何应用？

871

1

0

Flink和Spark Streaming相比有哪些不同？

1190

1

0

当把仅有确定性计算的 Spark Streaming 和 Flink 进行对比时二者的不同点有哪些？

878

1

0

如果 Spark Streaming 存在非确定性的计算，则不能实现端到端一致，原因是什么？

851

1

0

Spark Streaming 原理是什么？

1787

1

0

Spark streaming / Flink 通过通道服务的完整架构是什么样的？

728

1

0

Spark streaming / Flink 通过通道服务实现了什么？

709

1

0

Spark Streaming

652

1

0

从哪个版本开始将提供 Spark Streaming SQL 的预览版功能？

749

1

0

Spark streaming / Flink 通过通道服务拿到实时数据变化，聚合，将统计结果写回到

599

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

上传文件时提示“Illegal file path”，怎么解决的？

阿里云ESA是什么？边缘安全加速和CDN有什么区别？

阿里云短信收费标准，短信群发平台是怎么收费的？

通义灵码使用代理报错

idea通义灵码插件，更新后怎么一直用英文回答。开始对话时，告诉它之后的问题使用中文回答也不行

相关文章

到底该选谁？Hadoop、Spark、Flink、云大数据的“江湖全景图”

手把手教你搞定大数据上云：数据迁移的全流程解析

Delta Join：为超大规模流处理实现计算与历史数据解耦

内附原文｜VLDB论文精读：AI进行时，数据分析迈入增量计算时代

Delta Join：为超大规模流处理实现计算与历史数据解耦

还有其他疑问?