我现在的问题是如果keyby开窗后,再加key字段的话就无法从之前的状态重启了,但我并不想要这里窗口的状态
flink本身应该没有api能够实现的,不过可以结合DataStream API使用的。
Flink提供了一个Kafka Connector,它可以从Kafka中读取数据,并将其转换为Flink的DataStream。您可以使用DataStream API来处理数据,并使用keyBy()方法将数据按照指定的字段进行分组。您可以使用window()方法来定义窗口,并使用keyBy()方法来指定窗口的key。您可以使用Flink的checkpointing功能来保存状态,以便在重新启动时从上次checkpoint的位置开始处理数据。
通过官方文档看来是没有批处理kafka的方式;目前仅支持三种方式: 第一种:配置地址列表的方式, 第二种:使用topic的方式进行处理 第三种:根据设置消费位置进行处理 具体官方地址: https://help.aliyun.com/document_detail/181568.html?scm=20140722.S_help%40%40%E6%96%87%E6%A1%A3%40%40181568..ID_181568-RL%E4%BD%9B%E5%B1%B1%E6%B2%BB%E5%B7%A5%E5%85%B7-LOC_main-OR_ser-V_2-P0_2915
楼主你好,可以批出数据,首先来看: Flink上读取数据有两种方式:
继承RichSourceFunction重写父类方法(flink streaming)
查找官方文档中是否存在connector(flink streaming和flink dataSet)
Flink上将数据写入存储也有两种方式:
继承RichSinkFunction重写父类方法(flink streaming)
实现OutputFormat接口(flink streaming和flink dataSet)
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。