文档备案控制台

开发者社区问答正文

广告业务中如何用flink替换spark一些逻辑处理，是否需要用到processfunction

需求描述：

需要将目前的spark程序替换成flink去做，在梳理逻辑的时候有一块不知道用flink咋实现，spark是按每三分钟一个批次来跑的。

描述如下：

广告日志按照ask日志->bid->show->click顺序流程，要求是要将不同的日志都与bid日志merge，来保证bid数据的完整性，key按sessionid+Adid做唯一

逻辑：spark读取多个日志topic

含xxtopic,格式化,joinAll之后得到（string,pair）日志类型pair.logType如果是'bid'直接写到bidtopic，如果是其他类型，需要从之前HBASE缓存中拿bid表匹配，匹配到(可能是show

or click ..)合并输出到bidtopic,

没有匹配到，会有pair.n来记录次数，并写到xxtopic，n>10次(循环来回30分钟)都没有匹配到bid数据直接写到bidtopic,n<=10次内匹配不到bid

n+1，并写到xxtopic进入下个批次。

10次是业务方提的，也就是30分钟的缓存，如果没有10次限定，会有很多数据都写到xxtopic,这里不涉及计算，只是合并，也不去重，假如根据key

找到了3条同样的数据，也要合并三条。

这个用flink怎么实现？*来自志愿者整理的flink邮件归档

展开

收起

EXCEED 2021-12-02 15:58:16 639 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

彗星halation

这意思是处理乱序吧，如果重试10次都join不上就放弃的意思？

flink下面就是双流interval join的事情吧，然后watermark设置要斟酌一下，如果对延迟不敏感就直接30分钟，如果敏感也可以搞分级重试。

纯猜测。*来自志愿者整理的FLINK邮件归档

2021-12-02 16:11:42

赞同展开评论

问答分类：

缓存分布式计算分布式数据库流计算 Spark Hbase 实时计算 Flink版日志服务云数据库 HBase 版

问答标签：

广告实时计算 Flink版 apache spark flink 实时计算 Flink版逻辑 flink apache spark 实时计算 Flink版spark

问答地址：

开发者社区 > 大数据 > 问答

相关问答

Flink 使用维表加在 MC 的数据，MC中的某条数据变更了，sql统计的逻辑会变更吗？

249

1

0

flink里pyspark ,通过 spark-submit 这种方式提交作业，报错依赖缺失咋办？

294

1

0

Flink这个是sql方式有额外的处理逻辑么？

150

1

0

dataworks上如何开发实时任务 spark任务或者flink任务？

222

0

0

在Flink CDC中，flinsql读spark表的timestamp类型字段报这个错，这个咋解决

185

0

0

在Flink CDC中，pgsql备库cdc，wal_level不改成逻辑的有啥方案嘛？

546

0

0

为什么选择从Kafka + Spark Streaming转向Flink？

221

1

0

在Spark数据处理逻辑中，如何有效减少IO成本？

118

1

0

要在DataWorks上同时使用EMR Spark和Flink应用，应该怎么选择技术架构？

255

0

0

如果我增加TM的数量那要提高作业并发度改为3 那TM就是3=3/1Flink是这个逻辑吗？

157

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

qoder CN,wiki收费为什么没有提示,以前qoder国际版不是免费的吗,一次跑了几百Cred

阿里云服务器官网在哪？有几种云服务器类型？

阿里云服务器多少钱一年？价格贵不贵？有优惠吗？

阿里云服务器问题解答，你关心的问题都在这！

阿里云 ECS 公网 IP有什么更换技巧？

相关文章

Xiuno BBS 审计之问题10：后台 phpinfo() 暴露完整服务器环境信息

KubeVirt 镜像制作

AI Agent 凭证治理实践：从长期 API Key 到临时授权

成本直降50%！GPT-5.6 Terra与GPT-5.5跑分、延迟、稳定性深度实测

中小企业低成本搭建合规企业官网：阿里云轻量化建站架构全流程解析

还有其他疑问?