Flink线上问题汇总篇(3)-sink结果中true、false合理过滤问题

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: Flink sink结果中f0的true、false的使用问题

我们线上运行的flink任务通过flink->kafka->redis 路线,结果最终入redis供前端人员展示使用。最近在给前端人员对接展示的过程中发现了一个比较头疼的问题,那就是任务刚开始运行时数据是正常的,运行一段时间之后flink汇总出来的数据会比实际的多,并且汇总出来了很多目前没有的分类。可能听起来比较难理解。

下面我举个例子来描述这种现象。我们的分类总共分为A、B、C、D四类,现在仅有A、B符合目前参与统计的条件。但是Flink汇总出来A、B、C三种数据。而且仅仅C的数据是多出来的,A、B分类的数据是正确的。这就让人头疼了,你说flink任务有问题吧它算出来的数据是准的,说没问题吧它算出来的又多了其他分类的数据!本着重启解决万难的想法我重启了flink任务,意料之外的是数据居然还是没对上。然后我开始分析数据看看多出来的数据都是些什么数,经过一阵脑细胞燃烧发现这些数据有两个共同点。其一是这些数据曾经符合统计条件现在不符合了,其二就是这些数据现在都应该是0。有了这两个条件组合我忽然想到了一个极大的可能那就是降到0之后没有触发flink的删除操作。按理说flink应该会触发。然后去排查代码发现我在最后输出结果的地方将flink删除的指令全部过滤掉了没有参与输出。至此真相大白。

flink中sink的数据像日志一样,更新操作就是先false后true。也就是我们理解的先删后插,但是我利用了redis的覆盖更新特性,为了减少结果输出量一股脑全把false拦截了。导致真实需删除的数据没有被删除。


相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
消息中间件 SQL API
Flink线上问题汇总篇(2)-时区不一致系统时间少8小时导致数据丢失问题
flink按月度汇总数据,月初时数据部分丢失问题
1566 0
|
消息中间件 SQL 缓存
Flink线上问题汇总篇(4)-数据抖动问题
flink计算后的数据输出至kafka时出现数据跳动问题,导致前台展示忽大忽小
404 1
|
消息中间件 中间件 Kafka
Flink线上问题汇总篇(1)-状态过期导致的sum结果负数问题
用flink流计算汇总数据,SUM操作后的结果惊现负数,搞了两天才搞定!
651 3
|
2月前
|
消息中间件 Kafka Apache
Apache Flink 是一个开源的分布式流处理框架
Apache Flink 是一个开源的分布式流处理框架
482 5
|
1月前
|
SQL Java API
官宣|Apache Flink 1.19 发布公告
Apache Flink PMC(项目管理委员)很高兴地宣布发布 Apache Flink 1.19.0。
1336 1
官宣|Apache Flink 1.19 发布公告
|
1月前
|
SQL Apache 流计算
Apache Flink官方网站提供了关于如何使用Docker进行Flink CDC测试的文档
【2月更文挑战第25天】Apache Flink官方网站提供了关于如何使用Docker进行Flink CDC测试的文档
142 3
|
1月前
|
XML Java Apache
Apache Flink自定义 logback xml配置
Apache Flink自定义 logback xml配置
150 0
|
1月前
|
消息中间件 Java Kafka
Apache Hudi + Flink作业运行指南
Apache Hudi + Flink作业运行指南
85 1
|
1月前
|
缓存 分布式计算 Apache
Apache Hudi与Apache Flink更好地集成,最新方案了解下?
Apache Hudi与Apache Flink更好地集成,最新方案了解下?
60 0
|
1月前
|
监控 Apache 开发工具
Apache Flink 1.12.2集成Hudi 0.9.0运行指南
Apache Flink 1.12.2集成Hudi 0.9.0运行指南
67 0