经常遇到 major GC 花了半分钟才完成,但一两秒以后又启动了,如此往复。这种情况下 Flink 很不稳定,随时可能挂掉,checkpoint 也完不成了,Flink 还在默默地往身上扛数据-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文

经常遇到 major GC 花了半分钟才完成,但一两秒以后又启动了,如此往复。这种情况下 Flink 很不稳定,随时可能挂掉,checkpoint 也完不成了,Flink 还在默默地往身上扛数据

赵慧 2018-10-18 13:27:53 1540

转自钉钉群21789141:经常遇到 major GC 花了半分钟才完成,但一两秒以后又启动了,如此往复。这种情况下 Flink 很不稳定,随时可能挂掉,checkpoint 也完不成了,Flink 还在默默地往身上扛数据

Java 流计算
分享到
取消 提交回答
全部回答(2)
  • 石权infinite
    2019-07-17 23:09:11

    这个问题能再拿出聊一下么?

    1. heap statebackend也不是完全驻留在内存,会扇出到磁盘的吧?
    2. 阿里自己的statebackend大概怎么实现的?
    0 0
  • 赵慧
    2019-07-17 23:09:11

    Jerome:这种现象通过适当增加资源应该比较好解决吧
    问:明明 off-heap 还有几十 GB 的空间,也开启 off-heap 选项了,后来发现状态这部分 Flink 是完全不用堆外的... 而且 snapshot 时各种 array copy 和 flatten, 内存很快就没了
    付典:你用的heap statebackend,为什么不用rocksdb statebackend?
    问:RocksDB 单用的话性能比不上 Heap...
    放在 ramdisk / Alluxio 上效果会好一些,不过又要更多措施来保证数据可靠性了
    如果把 local recovery 的 checkpoint stream 写入快速 SSD / offheap,结合 pre-allocate,那么扩容起来应该更快,只是成本就上去了
    jerome:可以问问阿里同学怎么做的
    他们数据量很大应该经常遇到性能问题
    对了,他们自己实现了自己的statebackend
    这个要贡献出来很有用

    0 0
添加回答
大数据
使用钉钉扫一扫加入圈子
+ 订阅

大数据计算实践乐园,近距离学习前沿技术

推荐文章
相似问题
推荐课程