用spark thriftserver 查询flink cdc 同步到hudi的数据的时候,每次都要重新在datagrip里面新开一个spark query窗口才能看到数据的变化?
你这个是spark 的session 模式导致的bug吧,试下 refresh下 hudi的table呢 ,此回答整理自钉群“Flink CDC 社区”
是的,使用Spark ThriftServer查询Flink CDC同步到Hudi的数据时,每次都需要重新在DataGrip中新开一个Spark Query窗口才能看到数据的变化。这是因为Spark ThriftServer是一个独立的服务,它不会自动更新或刷新查询结果。
如果你想实时查看数据变化,可以考虑以下几种方法:
这个问题可能是由于Datagrip的会话管理机制导致的。Datagrip是一个集成开发环境(IDE),它为每个查询创建一个新的会话。当查询完成后,这个会话就会被关闭,所以你看到的数据显示也就消失了。
如果你想在Datagrip中持续看到数据的变化,你可以尝试以下几种方法:
在Datagrip中设置一个持久的Spark会话。这样,即使你的查询窗口关闭了,这个会话仍然会保持打开状态,你可以随时在新的查询窗口中使用这个会话。
使用Datagrip的调度功能。你可以创建一个定时任务,每隔一段时间就执行一次你的查询。这样,你就可以在Datagrip中持续看到数据的变化了。
使用Datagrip的日志功能。你可以将你的查询结果输出到一个日志文件中,然后使用Datagrip的日志功能来查看这个文件。这样,你就可以在Datagrip中持续看到数据的变化了。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。