开发者社区> 问答> 正文

Hudi存储层由哪三个不同的部分组成?

Hudi存储层由哪三个不同的部分组成?

展开
收起
xin在这 2021-12-12 11:12:53 269 0
1 条回答
写回答
取消 提交回答
  • 元数据–它以时间轴的形式维护了在数据集上执行的所有操作的元数据,该时间轴允许将数据集的即时视图存储在基本路径的元数据目录下。时间轴上的操作类型包括

    提交(commit),一次提交表示将一批记录原子写入数据集中的过程。单调递增的时间戳,提交表示写操作的开始。

    清理(clean),清理数据集中不再被查询中使用的文件的较旧版本。

    压缩(compaction),将行式文件转化为列式文件的动作。

    索引,将传入的记录键快速映射到文件(如果已存在记录键)。索引实现是可插拔的,Bloom过滤器-由于不依赖任何外部系统,因此它是默认配置,索引和数据始终保持一致。Apache HBase-对少量key更高效。在索引标记过程中可能会节省几秒钟。

    数据,Hudi以两种不同的存储格式存储数据。实际使用的格式是可插入的,但要求具有以下特征–读优化的列存储格式(ROFormat),默认值为Apache Parquet;写优化的基于行的存储格式(WOFormat),默认值为Apache Avro。

    2021-12-12 11:13:30
    赞同 展开评论 打赏
问答分类:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
HBase 冷热分离 立即下载
HBase冷热分离方案 立即下载
为流处理世界重新设计的存储 立即下载