在ODS和DWD层,我们采用了Flink直接写入Hive的ODS层,并开发了HDFSStreamingSource支持增量化读取。为了避免对HDFS路径的频繁扫描,ODS层写入时会创建索引文件,记录写入的文件路径和时间。同时,我们引入了Hudi connector,支持数据Append写入Hudi,并对Hudi的compaction机制进行了扩展,包括DQC检测、数据布局优化以及映射到Hive表的分区目录。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。