Apache Hudi初探(七)(与spark的结合)-阿里云开发者社区

Apache Hudi初探(七)(与spark的结合)

2023-06-12 181

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Apache Hudi初探(七)(与spark的结合)

背景

目前hudi的与spark的集合还是基于spark datasource V1来的，这一点可以查看hudi的source实现就可以知道:

class DefaultSource extends RelationProvider
  with SchemaRelationProvider
  with CreatableRelationProvider
  with DataSourceRegister
  with StreamSinkProvider
  with StreamSourceProvider
  with SparkAdapterSupport
  with Serializable {

闲说杂谈

接着Apache Hudi初探(二)(与spark的结合)中剩下的：

    val syncHiveSuccess = metaSync(sqlContext.sparkSession, writeConfig, basePath, df.schema)

这里主要是同步到数据到hive的元数据中，如果hoodie.datasource.hive_sync.enable开启（默认是false，不开启）

则会设置hoodie.datasource.meta.sync.enable为true（默认是false，不开启），于此同时会把HiveSyncTool类加入到syncClientToolClassSet集合中，便于后续调用，当然如果设置了hoodie.meta.sync.client.tool.class，也会加入到该集合中。

如果hoodie.datasource.meta.sync.enable为true ,

会设置hoodie.datasource.hive_sync.schema_string_length_thresh为spark.sql.sources.schemaStringLengthThreshold 默认是4000

设置hoodie.meta_sync.spark.versio为当前spark的版本

设置hoodie.meta.sync.metadata_file_listing 为hoodie.metadata.enable （默认是true）

之后调用HiveSyncTool的syncHoodieTable方法来进行元数据的同步，

对于MOR表来说，会有两张表，一张是rt 表，一张是ro表，分别对应snapshot表（实时表）和读优化表

但是如果hoodie.datasource.hive_sync.skip_ro_suffix为true （默认是false），则读优化表，则不会加 ro 后缀

最后还会在spark中刷新刚才建立的表，这样才spark的查询中就能查询到插入的hudi表

Apache Hudi初探(七)(与spark的结合)

背景

闲说杂谈

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Apache Hudi初探(七)(与spark的结合)

背景

闲说杂谈

热门文章

最新文章

相关课程

相关电子书

推荐镜像