备案控制台

开发者社区> 问答> 正文

在 Spark Structured Streaming 中，水印是如何计算和使用的？

在 Spark Structured Streaming 中，水印是如何计算和使用的？

展开

收起

真的很搞笑 2024-06-17 20:20:13 9 0

1 条回答

写回答

取消提交回答

芯在这

在 Spark Structured Streaming 中，水印是全局的，在每个批次计算触发结束后重新计算。新的水印是取触发器执行前看到的最大时间戳和触发器执行中数据中的最大时间戳之间的最大值，然后减去宽限时间。在存在多个输入源的场景中，Spark 会跟踪每个输入流的情况，单独计算出水印，然后选择最小值作为全局水印。基于这个全局水印，Spark 可以维护到达的数据状态，并通过与迟到数据聚合来更新它，小于水印的延迟数据将被聚合，超过水印的数据将被丢弃。

2024-06-17 20:42:25

赞同 1 展开评论打赏

问答分类：

数据安全/隐私保护流计算分布式计算 Spark

问答标签：

apache spark计算 apache spark structured apache spark structured streaming apache spark streaming apache spark水印

问答地址：

开发者社区 > 大数据 > 问答

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

大数据计算MaxCompute的Maxcompute Spark 任务，开启动态资源调度，怎么报错？

98

3

0

Spark Structured Streaming 和 Kafka 在数据完整性推理上有何不足？

12

1

0

在 Spark Structured 中，为什么全局水印的设计可能会导致不正确的聚合结果？

13

1

0

大数据计算MaxCompute中maxcompute spark如何读取 oss 上面的文件？

179

3

0

Spark计算框架的官网地址是什么？

71

2

0

大数据计算MaxCompute怎么看到每个spark任务的具体花费，只能看到每种类型任务的总花费吗？

36

1

0

大数据计算MaxCompute spark任务的费用是按照运行成功的任务的资源消耗计费么？

54

1

0

问怎么使用flink做批计算？尝试使用flink做批计算，感觉怎么也没有spark方便。

47

1

0

你好，请问大数据计算MaxCompute我这边在dataworks中建了ODPS Spark

56

3

0

adb做数仓做计算是基于本身的计算能力还是基于spark？

281

2

0

问答排行榜

最热

最新

1 通过阿里云代备案系统进行个人快速备案 2699878

2 【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥 1818310

3 据说在家办公的程序员是这样写代码的？ 1792328

4 阿里云开放端口权限 689918

5 如何升级配置 536071

6 【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？ 522455

7 【精品问答】python技术1000问(1) 513999

8 Flink Forward Asia 2021 有奖问答 512805

9 Linux Bash严重漏洞修复紧急通知（已全部给出最终修复方案） 456921

10 OceanBase 使用动画（持续更新） 359264

11 阿里云LNAMP(Linux + Nginx + Apache + MySQL + PHP)环境一键安装脚本 329721

12 OSS存储服务-客户端工具 321336

13 为体验实验室取一个新名字。 307309

14 企业邮箱发送邮件时，若出现投递失败产生退信，内容提示包含如下： the mta server of * reply:550 failed to meet SPF requirements 或者 the mta server of 163.com — 163mx01.mxmail.netease.com(220.181.14.141) reply:550 MI:SPF mx14,QMCowECpA0qTiftVaeB3Cg—.872S2 1442548128 http://mail.163.com/help 303856

15 Win Server 2003-2016 加密勒索事件必打补丁合集 295160

16 FLASH播放器，在IE浏览器下显示请确定您的域名已完成备案和CNAME绑定 283649

17 安全组详解，新手必看教程 277259

18 写code还是做管理，开发者如何进行职业规划？ 268460

19 惊喜翻倍：免费ECS+免费环境配置~！(ECS免费体验6个月活动3月31日结束) 255827

20 阿里云手机和阿云浏览器连接问题专帖 235630

1 国内AI大模型高考数学成绩超GPT-4o，如何看待这一结果？ 329

2 如何避免“写代码5分钟，调试2小时”的尴尬？ 325

3 一键部署3D卡通风格模型，分享部署过程及使用体验 466

4 展示你通过AI修饰的自然风光照片，并讲述你的拍摄和编辑过程 717

5 机器学习PAI现在一直在重试，怎样停掉？ 186

6 请问机器学习PAI eas服务拉取dockerhub失败怎么办？ 142

7 平头哥芯片W800:芯片如何购买？ 124

8 阿里云Grafana升级10后已有的飞书webhook 报警机器人不再工作。请问如何排查？ 128

9 Nacos登录密码忘记了如何修改？ 193

10 你知道APP是怎么开发的吗？ 1374

11 如何提高企业的业务稳定性？ 582

12 钉钉宜搭，A提交一个表单，如何设置该表单只能给B看？ 123

13 百问求答 | 回答问题即有机会得米家落地扇 315

14 集成&自动化：3层触发时，新增和删除触发正常，但编辑时不正常 100

15 分享AI代码助手的使用体验 715

16 分享一张AI生成的“老照片”，讲讲你与它的故事 969

17 idea上的通义灵码生成git提交消息老是会变成英文没有切换中文的入口 234

18 通义灵码插件IDEA生成Git Commit Message 时无法生成中文 197

19 在阿里云百炼如果我开启了商务版本，是不是我所有的项目都是共用一个扣费的？ 110

20 阿里云百炼的Assistant API能有对应的RAG对知识库进行检索的接口没？ 105

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

276

28

去学习

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

118

25

去学习

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

120

19

去学习

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

146

32

去学习

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

342

9

去学习

大数据实时计算框架Spark快速入门

954

93

去学习

推荐问答

乘风问答官招募中！机械键盘免费拿

相关电子书

更多

Hybrid Cloud and Apache Spark 立即下载

Scalable Deep Learning on Spark 立即下载

Comparison of Spark SQL with Hive 立即下载