文档备案控制台

开发者社区问答正文

请教Flink中关于窗口的问题

我在一个job中有一些很大的数据（key的种类很少，但是单个key下的数据数量很多），基本要实现的是一个时间滑动窗口结束时，当某个key的数量大于一个固定值后，将该key下的所有原数据输出。我现在的方法是将key加后缀，然后keyBy做窗口，但是这个做完之后还是需要再次keyBy把数据还原回去，并且这个过程又将全量数据拉到了一个节点上，请问有没有一些别的解决方法？*来自志愿者整理的flink邮件归档

展开

收起

毛毛虫雨 2021-12-08 11:25:41 560 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

雪哥哥

你这个方法就可以的哈，至于第二个窗口又聚到一个结点的问题本身就是原始问题，基于你的方法缓解即可，第二层不可避免的。你需要做的是调整合理的参数，使得第二层的数据虽然不均衡，但数据量以及足够低就可以了。此外，还需要注意，当前key数量假设1w，加10随机就是10w，加100随机就是100w。这个key的膨胀也很严重的。最好的做法是仅针对高数据量的key分拆。*来自志愿者整理的flink邮件归档

2021-12-08 16:19:32

赞同展开评论

问答分类：

流计算实时计算 Flink版

问答标签：

实时计算 Flink版窗口

问答地址：

开发者社区 > 大数据 > 问答

相关问答

咨询一个问题，按照事件时间10分钟watermark，，flink里用到了连续的两个窗口，第一个3分

1072

1

0

请问flink可不可以实现keyby的watermark来触发窗口？

726

1

0

flink开一天窗口，设置时区好像没有生效，1.13.6版本，有知道怎么解决时区问题吗

2329

11

0

flink sql 窗口排序怎么做按事件时间排序flink sql 窗口排序怎么做按事件时间排序

923

1

0

flink sql 窗口排序怎么做按事件时间排序flink sql 窗口排序怎么做按事件时间排序

983

1

0

flink 咋水位线超过了窗口时间但是不触发窗口计算怎么回事?

730

1

0

flink CUMULATE 窗口统计1天的pv，uv之类时候，有没有碰到过统计结果不准的情况？

1441

13

0

Flink 窗口计算流读iceberg（iceberg已经修改过支持水位线）这个错误如何解决呢？

924

1

0

请问flink sql里面统计窗口内的数据的时候，想去重取最新状态，应该怎么做

1555

1

0

flink事件时间窗口当数据不持续的时候，最后一个窗口不触发计算，这个咋解决的啊？？？

1821

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

idea qoder cn报错

ECS 带宽跑满导致业务卡顿？CDN 怎么进行分流优化解决高峰期瓶颈？

qoder CN,wiki收费为什么没有提示,以前qoder国际版不是免费的吗,一次跑了几百Cred

阿里云服务器官网在哪？有几种云服务器类型？

阿里云服务器多少钱一年？价格贵不贵？有优惠吗？

相关文章

阿里云表格存储Tablestore对接使用完全指南：从入门到实战

别等用户跑路才报警！大数据风控，真正拼的是“毫秒级判断”

StarRocks x Fluss x Paimon 湖流一体方案：构建秒级响应、湖流一体的实时数据引擎

为什么你的物联网平台总是“掉链子”？真正的问题，不是设备，而是数据平台！

实时云渲染是什么？一文读懂实时云渲染、WebGL 与像素流的核心区别

还有其他疑问?