文档备案控制台

开发者社区问答正文

flink state问题

大家好

我有一个去重的需求，想节省内存用的bloomfilter，代码如下：

.keyBy(_._1).process(new KeyedProcessFunctionString,(String,String),String {

var state:ValueState[BloomFilter[CharSequence]]= null

override def open(parameters: Configuration): Unit = {

val stateDesc = new ValueStateDescriptor("state",TypeInformation.of(new TypeHintBloomFilter[CharSequence]{}))

state = getRuntimeContext.getState(stateDesc)

}

override def processElement(value: (String, String), ctx: KeyedProcessFunction[String, (String, String), String]#Context, out: Collector[String]) = {

var filter = state.value

if(filter==null){

println("null filter")

filter= BloomFilter.createCharSequence}

//val contains = filter.mightContain(value._2)

if(!filter.mightContain(value._2)) {

filter.put(value._2)

state.update(filter)

out.collect(value._2)

}

}

})

通过日志我看到每次我从savepoint恢复的时候这个state里面的bloomfilter都是null，这是为什么啊*来自志愿者整理的flink邮件归档

展开

收起

EXCEED 2021-12-07 15:22:44 804 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

彗星halation

你可以尝试用 state-process-api[1] 看一下 savepoint 中 state 的内容，先缩小一下问题的范围，如果

savepoint 中就没有了，那就是序列化到 savepoint 的时候出错了，savepoitn 是有的，那么就是恢复的时候出错了。

[1]

https://ci.apache.org/projects/flink/flink-docs-release-1.11/dev/libs/state_processor_api.html*来自志愿者整理的flink邮件归档

2021-12-07 15:51:25

赞同展开评论

问答分类：

流计算实时计算 Flink版日志服务

问答地址：

开发者社区 > 大数据 > 问答

相关问答

flink state问题

878

1

0

flink-state问题

652

1

0

各位大佬，请教一下，如果在flink cdc sql客户端使用SQL查询表，怎么能记录原系统的数据

2309

1

0

那cdc最新版支持到flink的哪个版本，flink1.15还有guava兼容性问题吗？

1907

0

0

flink cdc(mysql) -> elasticsearch7, 任务每次持续跑了一段时间之后

1464

2

0

哪位有编译好的cdc 2.2.0版本能能试用flink 1.14.2的包呀？

6345

18

0

各位大佬，请教个问题，使用flink cdc读取数据时，如果配置一个表，数据过滤是发生在server

2174

3

0

flink cdc 怎么做断点续传啊

6722

6

0

我使用flink cdc StartupOptions.latest() 采最新的日志。要是程序挂了

2137

5

0

请教下有flink cdc 对接mysql5.6的demo么？我这边显示各种包错误

1467

4

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

关于国际版和国内版客户端购买套餐问题

【Qoder CN】模型提供商：支持自定义第三方的URL

Pro试用版是只有300的Credits么？

Qoder REPO WIKI使用优化

Qoder Work是个好家伙，但是什么时候能支持自定义模型API？

相关文章

别等用户跑路才报警！大数据风控，真正拼的是“毫秒级判断”

StarRocks x Fluss x Paimon 湖流一体方案：构建秒级响应、湖流一体的实时数据引擎

为什么你的物联网平台总是“掉链子”？真正的问题，不是设备，而是数据平台！

实时云渲染是什么？一文读懂实时云渲染、WebGL 与像素流的核心区别

阿里云实时计算Flink版对接实战：从数据源到结果表的全链路开发指南

还有其他疑问?