开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

Flink如果默认是At-Least-Once语义,ck有重复数据比较好理解,丢数据可能是什么原因?

Flink如果默认是At-Least-Once语义,ck有重复数据比较好理解,请问丢数据可能是什么原因造成的?cp正常的,有时候会有ck连接超时的报错,可能是ck压力大的原因。现在maxRetryTimes置为0了,这个是不是会影响丢数据?

展开
收起
三分钟热度的鱼 2023-11-15 20:40:06 108 0
1 条回答
写回答
取消 提交回答
  • Flink的At-Least-Once语义意味着每个消息至少会被处理一次,所以可能会出现重复的数据。但是,如果数据丢失,那么可能是因为以下原因:

    1. 网络问题:网络不稳定或者延迟高可能导致数据在传输过程中丢失。

    2. Flink任务失败:如果Flink任务因为某些原因(如内存不足、任务崩溃等)失败,那么正在处理的数据可能会丢失。

    3. Sink处理失败:如果你的数据需要经过多个步骤才能写入到SLS,那么在中间步骤出现问题时,数据可能会丢失。

    4. 数据编码错误:如果你的数据在编码过程中出现错误,那么数据可能会丢失。

    关于你提到的ck连接超时的问题,这可能是由于ck的压力过大导致的。如果你将maxRetryTimes设置为0,那么Flink在遇到连接超时的情况下将不再重试,这可能会导致数据丢失。建议你将maxRetryTimes设置为大于0的值,以便在连接超时的情况下进行重试。

    2023-11-17 10:48:54
    赞同 1 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 相关电子书

    更多
    Flink峰会 - 徐榜江 立即下载
    ClickHouse在手淘流量分析应用实践Jason Xu 立即下载
    云数据库clickhouse最佳实践 立即下载