有大佬通过flink读过hudi表吗?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
当然有。Flink集成Hudi读取Hudi表是支持的,并且可以通过特定的配置和步骤实现高效的数据处理。以下是基于您提及的需求,结合知识库参考资料整理的指南:
启动Flink SQL会话:
sql-client.sh \
-j /opt/apps/FLINK/flink-current/opt/catalogs/dlf/ververica-connector-dlf-1.13-vvr-4.0.15-SNAPSHOT-jar-with-dependencies.jar \
-j /opt/apps/FLINK/flink-current/opt/catalogs/hive-2.3.6/ververica-connector-hive-2.3.6-1.13-vvr-4.0.15-SNAPSHOT-jar-with-dependencies.jar
创建Catalog连接Hudi与Hive:
CREATE CATALOG dlf_catalog WITH (
'type' = 'dlf',
'access.key.id' = '<yourAccessKeyId>',
'access.key.secret' = '<yourAccessKeySecret>',
'warehouse' = 'oss://oss-bucket/warehouse/test.db',
'oss.endpoint' = '<oss.endpoint>',
'dlf.endpoint' = '<dlf.endpoint>',
'dlf.region-id' = '<dlf.region-id>'
);
对于Hive Catalog的创建,请参照具体需求进行相应配置。
读取Hudi表示例:
SELECT * FROM dlf_catalog.test.hudi_tbl1;
hudi_tbl1
是一个假设存在的Hudi表,位于dlf_catalog.test
数据库下。write.bulk_insert.shuffle_input
和write.bulk_insert.sort_input
减少小文件数量,但需注意可能引入的数据倾斜风险。changelog.enabled=true
,并合理配置压缩策略以避免数据丢失或延迟问题。综上所述,Flink不仅能够读取Hudi表,还支持通过详细的配置和优化策略来满足不同场景下的数据处理需求。请根据实际环境和业务需求调整相关配置。
实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。