Flink CDC这些归档的主要用途会是干啥?不管用途的话数据湖也可以啊
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
数据备份和恢复:通过将 CDC 数据归档到持久化存储中,可以实现数据的备份和恢复。在系统故障或数据丢失时,可以使用归档数据进行数据恢复,保证数据的可靠性和可用性。
数据分析和查询:归档的 CDC 数据可以作为输入源用于后续的数据分析和查询。通过将数据存储在持久化存储中,可以在任意时间点回溯、查询和分析过去的数据,从而支持实时和历史数据的分析需求。
合规和审计:归档 CDC 数据可用于合规性和审计目的。通过长期保存的数据,可以进行数据溯源、数据完整性验证和合规性检查,以满足法规和监管要求。
数据集成和数据仓库:归档的 CDC 数据可以作为数据集成的一部分,用于将实时的数据流集成到数据仓库中。这样可以将实时数据与传统的批量数据结合起来,获得更全面和准确的数据视图。
尽管数据湖(Data Lake)也可以作为数据的长期存储和分析平台,但与 Flink CDC 归档相比,数据湖通常更适用于大规模存储和分析各种类型和格式的数据,而 Flink CDC 归档更专注于将实时的 CDC 数据存储和管理。数据湖可以作为 Flink CDC 归档数据的目标之一,以提供更广泛的数据存储和分析能力。
总之,Flink CDC 的归档功能主要用于数据的持久化和长期存储,以支持数据备份、数据分析、合规审计等需求。它与数据湖可以一起使用,以提供更全面和灵活的数据管理和分析能力。
实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。