暂无个人介绍
基于Apache Hudi + MinIO 构建流式数据湖
Apache Hudi 流转批 场景实践
使用 Bucket Index 加速Apache Hudi 写入
Apache Hudi 元数据字段揭秘
Upsert在Hudi中的实现分析
Bloom Filter在Hudi中的应用
Hudi Timeline(时间轴)分析
Apache Hudi测试、运维操作万字总结
实战|使用Spark Streaming写入Hudi
详解ApacheHudi如何节约宝贵的存储空间
Hudi Log日志文件读取分析(三)
Hudi Log日志文件写入分析(二)
Hudi Log日志文件格式分析(一)
在线房产公司Zillow数据迁移至数据湖实践
如何将Apache Hudi应用于机器学习
初创电商公司Drop的数据湖实践
Apache Hudi与机器学习特征存储
KIP-5:Apache Kylin深度集成Hudi
使用Apache Pulsar + Hudi 构建Lakehouse方案了解下?
快手基于Apache Hudi的实践
推荐系统的数学模型-从矩阵分解到推荐系统(Scala实现)
Apache Hudi重磅RFC解读之存量表高效迁移机制
Apache Hudi典型应用场景知多少?
使用Apache Hudi + Amazon EMR进行变化数据捕获(CDC)
如何将数据更快导入Apache Hudi?
OnZoom基于Apache Hudi的流批一体架构实践
KLOOK客路旅行基于Apache Hudi的数据湖实践
深入理解Apache Hudi异步索引机制
Apache Hudi 1.x 版本重磅功能展望与讨论
万字长文 | 泰康人寿基于 Apache Hudi 构建湖仓一体平台的应用实践
提升 Apache Hudi Upsert 性能的三个建议
阿里云AnalyticDB基于Flink CDC+Hudi实现多表全增量入湖实践
探索Apache Hudi核心概念 (4) - Clustering
Apache Hudi 0.13.0版本重磅发布!
Apache Hudi Timeline Server介绍
加速LakeHouse ACID Upsert的新写时复制方案
硬核!Apache Hudi Schema演变深度分析与应用
Apache Hudi Timeline:支持 ACID 事务的基础
一文聊透Apache Hudi的索引设计与应用
构建端到端的开源现代数据平台
Apache Hudi数据跳过技术加速查询高达50倍
回顾 2023:Hudi 的重点新功能一览
基于Apache Hudi 和 Microsoft Azure构建Lakehouse指南
详解Apache Hudi Schema Evolution(模式演进)
Apache Hudi 0.12.0版本重磅发布!
Apache Hudi从零到一:深入研究读取流程和查询类型(二)
典型的Spark作业读取位于OSS的Parquet外表时,源端的并发度(task/partition)如何确定?特别是在做TPCH测试时有一些疑问,如源端扫描文件的并发度是如何确定的?是否一个parquet文件对应一个partition?多个parquet文件对应一个partition?还是一个parquet文件对应多个partition?本文将从源码角度进行分析进而解答这些疑问。
在解决昨天的问题时,又引出了很多新的问题,如为什么要进行编码,这些编码的关系如何,如ASCII,IOS-8859-1,GB2312,GBK,Unicode之间的关系,笔者想要彻底理解字符编码背后的故事,遂进行了探索,具体笔记如下。如园友能读完本篇文章,我相信会解开很多疑惑
笔记
我们将讨论在构建流数据平台时如何利用 Hudi 的两个最令人难以置信的能力。 增量消费--每 30 分钟处理一次数据,并在我们的组织内构建每小时级别的OLAP平台 事件流的无限回放--利用 Hudi 的提交时间线在超级便宜的云对象存储(如 AWS S3)中存储 10 天的事件流(想象一个具有 10 天保留期的 kafka 主题) 具有部分记录更新的自定义 Hudi Payload 类