开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

我使用flink cdc StartupOptions.latest() 采最新的日志。要是程序挂了

我使用flink cdc StartupOptions.latest() 采最新的日志。要是程序挂了,这个是继续上次的偏移量进行采集。还是从最新的开始啊?

展开
收起
雪哥哥 2022-11-13 20:18:52 1300 0
5 条回答
写回答
取消 提交回答
  • 公众号:网络技术联盟站,InfoQ签约作者,阿里云社区签约作者,华为云 云享专家,BOSS直聘 创作王者,腾讯课堂创作领航员,博客+论坛:https://www.wljslmz.cn,工程师导航:https://www.wljslmz.com

    你好,官方是定义好从最新的记录开始的,所以在配置的时候要注意一下的

    2022-11-28 10:26:02
    赞同 展开评论 打赏
  • GitHub https://github.com/co63oc/cloud

    StartupOptions.latest() 从最新的数据开始读取

    StartupOptions.specificOffset(String specificOffsetFile, int specificOffsetPos) 指定文件和位置

    2022-11-24 16:36:58
    赞同 展开评论 打赏
  • 从最新的记录开始,如果没有最新的,那么应该是等待状态的。

    2022-11-23 16:40:56
    赞同 展开评论 打赏
  • 十年摸盘键,代码未曾试。 今日码示君,谁有上云事。

    Flink CDC Flink社区开发了 flink-cdc-connectors 组件,这是一个可以直接从 MySQL、PostgreSQL 等数据库直接读取全量数据和增量变更数据的 source 组件。目前也已开源, FlinkCDC是基于Debezium的.

    FlinkCDC相较于其他工具的优势: ①能直接把数据捕获到Flink程序中当做流来处理,避免再过一次kafka等消息队列,而且支持历史数据同步,使用更方便. ②FlinkCDC的断点续传功能: Flink-CDC将读取binlog的位置信息以状态的方式保存在CK,如果想要做到断点续传, 需要从Checkpoint或者Savepoint启动程序,通过这种方式来实现断点续传。 实时采集,当数据源里的数据发生了增删改操作,同步任务监听到这些变化,将变化的数据实时同步到目标数据源。实时采集任务是不会停止的,任务会一直监听数据源是否有变化。

    2022-11-23 14:33:59
    赞同 展开评论 打赏
  • 天下风云出我辈,一入江湖岁月催,皇图霸业谈笑中,不胜人生一场醉。

    看你的采集方式 1、断点续传 断点续传是指数据同步任务在运行过程中因各种原因导致任务失败,不需要重头同步数据,只需要从上次失败的位置继续同步即可,类似于下载文件时因网络原因失败,不需要重新下载文件,只需要继续下载就行,可以大大节省时间和计算资源。断点续传是数栈-离线开发平台(BatchWorks)里数据同步任务的一个功能,需要结合任务的出错重试机制才能完成。当任务运行失败,会在Engine里进行重试,重试的时候会接着上次失败时读取的位置继续读取数据,直到任务运行成功为止。 2、实时采集

    实时采集是数栈-实时开发平台(StreamWorks)里数据采集任务的一个功能,当数据源里的数据发生了增删改操作,同步任务监听到这些变化,将变化的数据实时同步到目标数据源。除了数据实时变化外,实时采集和离线数据同步的另一个区别是:实时采集任务是不会停止的,任务会一直监听数据源是否有变化。这一点和Flink任务是一致的,所以实时采集任务是数栈流计算应用里的一个任务类型,配置过程和离线计算里的同步任务基本一样。 image.png

    2022-11-23 11:31:28
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 相关电子书

    更多
    PostgresChina2018_赖思超_PostgreSQL10_hash索引的WAL日志修改版final 立即下载
    Kubernetes下日志实时采集、存储与计算实践 立即下载
    日志数据采集与分析对接 立即下载