暂无个人介绍
Flink CDC + Hudi + Hive + Presto构建实时数据湖最佳实践
超级重磅!Apache Hudi多模索引对查询优化高达30倍
基于 Apache Hudi + dbt 构建开放的Lakehouse
医疗在线OLAP场景下基于Apache Hudi 模式演变的改造与应用
Apache Hudi在信息服务行业构建流批一体的实践
CDC一键入湖:当 Apache Hudi DeltaStreamer 遇见 Serverless Spark
通用数据湖仓一体架构正当时
Grab 基于 Apache Hudi 实现近乎实时的数据分析
万字长文:基于Apache Hudi + Flink多流拼接(大宽表)最佳实践
基于Apache Hudi + MinIO 构建流式数据湖
使用 Bucket Index 加速Apache Hudi 写入
Apache Hudi 元数据字段揭秘
Bloom Filter在Hudi中的应用
Hudi Timeline(时间轴)分析
Apache Hudi测试、运维操作万字总结
实战|使用Spark Streaming写入Hudi
Hudi Log日志文件格式分析(一)
在线房产公司Zillow数据迁移至数据湖实践
推荐系统的数学模型-从矩阵分解到推荐系统(Scala实现)
Apache Hudi典型应用场景知多少?
使用Apache Hudi + Amazon EMR进行变化数据捕获(CDC)
KLOOK客路旅行基于Apache Hudi的数据湖实践
深入理解Apache Hudi异步索引机制
Apache Hudi 1.x 版本重磅功能展望与讨论
万字长文 | 泰康人寿基于 Apache Hudi 构建湖仓一体平台的应用实践
提升 Apache Hudi Upsert 性能的三个建议
阿里云AnalyticDB基于Flink CDC+Hudi实现多表全增量入湖实践
探索Apache Hudi核心概念 (4) - Clustering
Apache Hudi 0.13.0版本重磅发布!
硬核!Apache Hudi Schema演变深度分析与应用
一文聊透Apache Hudi的索引设计与应用
构建端到端的开源现代数据平台
回顾 2023:Hudi 的重点新功能一览
详解Apache Hudi Schema Evolution(模式演进)
Apache Hudi 0.12.0版本重磅发布!
Apache Hudi从零到一:深入研究读取流程和查询类型(二)
典型的Spark作业读取位于OSS的Parquet外表时,源端的并发度(task/partition)如何确定?特别是在做TPCH测试时有一些疑问,如源端扫描文件的并发度是如何确定的?是否一个parquet文件对应一个partition?多个parquet文件对应一个partition?还是一个parquet文件对应多个partition?本文将从源码角度进行分析进而解答这些疑问。
在解决昨天的问题时,又引出了很多新的问题,如为什么要进行编码,这些编码的关系如何,如ASCII,IOS-8859-1,GB2312,GBK,Unicode之间的关系,笔者想要彻底理解字符编码背后的故事,遂进行了探索,具体笔记如下。如园友能读完本篇文章,我相信会解开很多疑惑
笔记
我们将讨论在构建流数据平台时如何利用 Hudi 的两个最令人难以置信的能力。 增量消费--每 30 分钟处理一次数据,并在我们的组织内构建每小时级别的OLAP平台 事件流的无限回放--利用 Hudi 的提交时间线在超级便宜的云对象存储(如 AWS S3)中存储 10 天的事件流(想象一个具有 10 天保留期的 kafka 主题) 具有部分记录更新的自定义 Hudi Payload 类
自从计算机出现以来,我们一直在尝试寻找计算机存储一些信息的方法,存储在计算机上的信息(也称为数据)有多种形式,数据变得如此重要,以至于信息现在已成为触手可及的商品。多年来数据以多种方式存储在计算机中,包括数据库、blob存储和其他方法,为了进行有效的业务分析,必须对现代应用程序创建的数据进行处理和分析,并且产生的数据量非常巨大!有效地存储数PB数据并拥有必要的工具来查询它以便使用它至关重要,只有这样对该数据的分析才能产生有意义的结果。
从 Hudi v0.10.0 开始,我们很高兴地宣布推出适用于 Deltastreamer 的 Debezium 源,它提供从 Postgres 和 MySQL 数据库到数据湖的变更捕获数据 (CDC) 的摄取。
Robinhood 的使命是使所有人的金融民主化。 Robinhood 内部不同级别的持续数据分析和数据驱动决策是实现这一使命的基础。 我们有各种数据源——OLTP 数据库、事件流和各种第 3 方数据源。需要快速、可靠、安全和以隐私为中心的数据湖摄取服务来支持各种报告、关键业务管道和仪表板。
本文演示了使用外部表集成 Vertica 和 Apache Hudi。 在演示中我们使用 Spark 上的 Apache Hudi 将数据摄取到 S3 中,并使用 Vertica 外部表访问这些数据。
Apache Hudi 的Payload是一种可扩展的数据处理机制,通过不同的Payload我们可以实现复杂场景的定制化数据写入方式,大大增加了数据处理的灵活性。Hudi Payload在写入和读取Hudi表时对数据进行去重、过滤、合并等操作的工具类,通过使用参数 "hoodie.datasource.write.payload.class"指定我们需要使用的Payload class。
从 Hudi 0.10.0版本开始,我们很高兴推出在数据库领域中称为 Z-Order 和 Hilbert 空间填充曲线的高级数据布局优化技术的支持
本次分享分为5个部分介绍Apache Hudi的应用与实践 实时数据落地需求演进 基于Spark+Hudi的实时数据落地应用实践 基于Flink自定义实时数据落地实践 基于Flink+Hudi的应用实践 后续应用规划及展望
OnZoom是Zoom新产品,是基于Zoom Meeting的一个独一无二的在线活动平台和市场。作为Zoom统一通信平台的延伸,OnZoom是一个综合性解决方案,为付费的Zoom用户提供创建、主持和盈利的活动,如健身课、音乐会、站立表演或即兴表演,以及Zoom会议平台上的音乐课程。
笔记
华米科技是一家基于云的健康服务提供商,拥有全球领先的智能可穿戴技术。在华米科技,数据建设主要围绕两类数据:设备数据和APP数据,这些数据存在延迟上传、更新频率高且广、可删除等特性,基于这些特性,前期数仓ETL主要采取历史全量+增量模式来每日更新数据。随着业务的持续发展,现有数仓基础架构已经难以较好适应数据量的不断增长,带来的显著问题就是成本的不断增长和产出效率的降低。