文档备案控制台

开发者社区问答正文

Blink 对状态的copy（从本机到HDFS）是异步的，怎样保证exactly once了？

已解决

如果copy是异步的，怎样保证exactly once了？
--稍微修改了标题

展开

收起

默岭亚峰 2016-07-19 21:05:53 2650 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

4 条回答

写回答

取消提交回答

蒋晓伟

2014年底加入阿里，现在负责搜索工程的数据团队。在加入阿里前曾经就职于西雅图的脸书。负责过调度系统，Timeline Infra和Messenger的项目。在微软的SQL Server引擎担任过Principal Engineer，负责关系数据库的架构工作

采纳回答

异步的copy都完成了以后那个checkpoint才算成功，我们只会回滚到成功的checkpoint

2019-07-17 19:58:38

赞同展开评论
bash-horatio

Not lost, not lazy, no loose end

一次checkpoint包括所有算子都接到barrier，运算完，再落地。之后才会接着处理barrier之后的数据，这样就能保证exactly

2019-07-17 19:58:38

赞同展开评论
星罡

Blink的state采取了多版本控制(MVCC)的方式进行并发控制。在barrier到达时，Blink对state进行了快照。尽管在copy时，state仍然会被更新，但是快照所看到的数据是不会改变的。由于所有operator在同一个barrier下对state进行了快照，所以得到的状态是一致的，都是处理完同一批输入之后的状态。以这个状态恢复的计算自然也就是exactly once的了。

2019-07-17 19:58:38

赞同 1 展开评论
黎钢

黎钢

snapshot是同步，非常快，持久化是异步，不影响状态的一致性。

2019-07-17 19:58:38

赞同展开评论

问答分类：

流计算

问答标签：

文件存储HDFS版exactly once

问答地址：

开发者社区 > 大数据 > 问答

相关问答

请问，flink写hdfs目前支持exactly once么？

2381

1

0

为什么下载了Hadoop之后直接能够在Linux系统上运行hdfs文件呀？

1199

1

0

Linux文件系统中是怎么运行HDFS文件的呀？

939

1

0

HDFS存储的文件之间的映射关系是什么样子的呀？

826

1

0

HDFS当中文件是怎么存储的呀？

746

1

0

HDFS中登陆客户端要对文件进行操作时会先在哪里找文件的位置呀?

662

1

0

Java中HDFS为什么不能存小文件啊？

1720

1

0

flink任务取消产生的hdfs中间状态文件怎么解决呢？哪位大佬知道啊？任务取消计算结果落到hdfs

1272

1

0

我现在碰到了批处理读取数据不落盘，全读完才去sink，这个临时文件我要怎么去找，是在hdfs里面吗？

538

1

0

老哥们有没有遇到过这个问题，hdfs上文件明明存在，它报错说不存在，怎么办？

1330

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

通义灵码提示格式问题

API inference endpoint都变成待机态了

modelscope 模型python调用

notebook启动安全验证一直失败

阿里云百炼大模型怎么收费？要钱吗？

相关文章

别再纠结了：Lambda 还是 Kappa？流批统一这件事，真没你想得那么玄乎

数据不守规矩怎么办？——聊聊乱序事件的处理策略与实战要点

信任的裂缝：三星 Members 应用内现高危钓鱼攻击，官方生态安全边界再受挑战

StarRocks + Paimon：构建 Lakehouse Native 数据引擎

数据一边跑，隐私不能裸奔：聊聊流处理里的差分隐私怎么玩

还有其他疑问?