xleesf_社区达人页

备案控制台

xleesf

已加入开发者社区1985天

勋章更多

个人头像照片

专家博主

专家博主

个人头像照片

星级博主

星级博主

个人头像照片

技术博主

技术博主

个人头像照片

阿里博主

阿里博主

个人头像照片

初入江湖

初入江湖

成就

已发布408篇文章

39条评论

已回答0个问题

0条评论

已发布0个视频

github地址

我关注的人更多

粉丝更多

游客scqvlhbucl64k

游客scqvlhbucl64k

xiaofengclouder

xiaofengclouder

游客moiomvrp3vyac2

游客moiomvrp3vyac2

游客s4icazeelql4s

游客s4icazeelql4s

游客i56gjhhr3dnh6

游客i56gjhhr3dnh6

游客6ywpin3m6tto4

游客6ywpin3m6tto4

1877589319816149

1877589319816149

游客qf4jmczx4xu2y

游客qf4jmczx4xu2y

技术能力

兴趣领域

擅长领域

技术认证

- 阿里云数据仓库工程师ACP认证（Alibaba Cloud Certified Professional - Data Warehouse）
  获得于2022-04-12 22:36:26
- 阿里云云数据库助理工程师认证（ACA）
  获得于2021-04-29 17:09:02

暂无个人介绍

精选

文章
问答
视频

暂无精选文章

暂无更多信息

2024年05月

03.07 18:46:15

发表了文章 2024-03-07 18:46:15

LakeHouse 还是 Warehouse？(2/2)

LakeHouse 还是 Warehouse？(2/2)
03.07 18:44:14

发表了文章 2024-03-07 18:44:14

Grab 基于 Apache Hudi 实现近乎实时的数据分析

Grab 基于 Apache Hudi 实现近乎实时的数据分析
03.07 18:42:58

发表了文章 2024-03-07 18:42:58

降本百万！Notion 基于Apache Hudi构建LakeHouse

降本百万！Notion 基于Apache Hudi构建LakeHouse

2022年07月

07.13 19:11:42

发表了文章 2022-07-13 19:11:42

Spark如何对源端数据做切分？

典型的Spark作业读取位于OSS的Parquet外表时，源端的并发度（task/partition）如何确定？特别是在做TPCH测试时有一些疑问，如源端扫描文件的并发度是如何确定的？是否一个parquet文件对应一个partition？多个parquet文件对应一个partition？还是一个parquet文件对应多个partition？本文将从源码角度进行分析进而解答这些疑问。

2022年05月

05.07 10:05:44

发表了文章 2022-05-07 10:05:44

【字符编码】彻底理解字符编码

在解决昨天的问题时，又引出了很多新的问题，如为什么要进行编码，这些编码的关系如何，如ASCII，IOS-8859-1，GB2312，GBK，Unicode之间的关系，笔者想要彻底理解字符编码背后的故事，遂进行了探索，具体笔记如下。如园友能读完本篇文章，我相信会解开很多疑惑
05.07 10:01:00

发表了文章 2022-05-07 10:01:00

Apache Hudi 如何加速传统的批处理模式？

笔记
05.07 09:57:25

发表了文章 2022-05-07 09:57:25

基于 Apache Hudi 构建增量和无限回放事件流的 OLAP 平台

我们将讨论在构建流数据平台时如何利用 Hudi 的两个最令人难以置信的能力。增量消费--每 30 分钟处理一次数据，并在我们的组织内构建每小时级别的OLAP平台事件流的无限回放--利用 Hudi 的提交时间线在超级便宜的云对象存储（如 AWS S3）中存储 10 天的事件流（想象一个具有 10 天保留期的 kafka 主题）具有部分记录更新的自定义 Hudi Payload 类
05.07 09:55:27

发表了文章 2022-05-07 09:55:27

基于Apache Hudi在Google云构建数据湖平台

自从计算机出现以来，我们一直在尝试寻找计算机存储一些信息的方法，存储在计算机上的信息（也称为数据）有多种形式，数据变得如此重要，以至于信息现在已成为触手可及的商品。多年来数据以多种方式存储在计算机中，包括数据库、blob存储和其他方法，为了进行有效的业务分析，必须对现代应用程序创建的数据进行处理和分析，并且产生的数据量非常巨大！有效地存储数PB数据并拥有必要的工具来查询它以便使用它至关重要，只有这样对该数据的分析才能产生有意义的结果。
05.07 09:53:43

发表了文章 2022-05-07 09:53:43

基于Apache Hudi和Debezium构建CDC入湖管道

从 Hudi v0.10.0 开始，我们很高兴地宣布推出适用于 Deltastreamer 的 Debezium 源，它提供从 Postgres 和 MySQL 数据库到数据湖的变更捕获数据 (CDC) 的摄取。
05.07 09:51:41

发表了文章 2022-05-07 09:51:41

Robinhood基于Apache Hudi的下一代数据湖实践

Robinhood 的使命是使所有人的金融民主化。 Robinhood 内部不同级别的持续数据分析和数据驱动决策是实现这一使命的基础。我们有各种数据源——OLTP 数据库、事件流和各种第 3 方数据源。需要快速、可靠、安全和以隐私为中心的数据湖摄取服务来支持各种报告、关键业务管道和仪表板。
05.07 09:48:15

发表了文章 2022-05-07 09:48:15

重磅！Vertica集成Apache Hudi指南

本文演示了使用外部表集成 Vertica 和 Apache Hudi。在演示中我们使用 Spark 上的 Apache Hudi 将数据摄取到 S3 中，并使用 Vertica 外部表访问这些数据。
05.07 09:45:07

发表了文章 2022-05-07 09:45:07

超硬核解析！Apache Hudi灵活的Payload机制

Apache Hudi 的Payload是一种可扩展的数据处理机制，通过不同的Payload我们可以实现复杂场景的定制化数据写入方式，大大增加了数据处理的灵活性。Hudi Payload在写入和读取Hudi表时对数据进行去重、过滤、合并等操作的工具类，通过使用参数 "hoodie.datasource.write.payload.class"指定我们需要使用的Payload class。
05.07 09:31:38

发表了文章 2022-05-07 09:31:38

查询性能提升3倍！Apache Hudi 查询优化了解下？

从 Hudi 0.10.0版本开始，我们很高兴推出在数据库领域中称为 Z-Order 和 Hilbert 空间填充曲线的高级数据布局优化技术的支持
05.07 08:57:12

发表了文章 2022-05-07 08:57:12

基于Apache Hudi + Flink的亿级数据入湖实践

本次分享分为5个部分介绍Apache Hudi的应用与实践实时数据落地需求演进基于Spark+Hudi的实时数据落地应用实践基于Flink自定义实时数据落地实践基于Flink+Hudi的应用实践后续应用规划及展望
05.07 08:54:06

发表了文章 2022-05-07 08:54:06

OnZoom 基于Apache Hudi的流批一体架构实践

OnZoom是Zoom新产品，是基于Zoom Meeting的一个独一无二的在线活动平台和市场。作为Zoom统一通信平台的延伸，OnZoom是一个综合性解决方案，为付费的Zoom用户提供创建、主持和盈利的活动，如健身课、音乐会、站立表演或即兴表演，以及Zoom会议平台上的音乐课程。
05.07 08:48:07

发表了文章 2022-05-07 08:48:07

Apache Hudi 与 Hive 集成手册

笔记
05.07 08:45:57

发表了文章 2022-05-07 08:45:57

Apache Hudi在华米科技的应用-湖仓一体化改造

华米科技是一家基于云的健康服务提供商，拥有全球领先的智能可穿戴技术。在华米科技，数据建设主要围绕两类数据：设备数据和APP数据，这些数据存在延迟上传、更新频率高且广、可删除等特性，基于这些特性，前期数仓ETL主要采取历史全量+增量模式来每日更新数据。随着业务的持续发展，现有数仓基础架构已经难以较好适应数据量的不断增长，带来的显著问题就是成本的不断增长和产出效率的降低。
05.07 08:35:23

发表了文章 2022-05-07 08:35:23

一文彻底掌握Apache Hudi异步Clustering部署

在之前的一篇中，我们介绍了Clustering(聚簇)的表服务来重新组织数据来提供更好的查询性能，而不用降低摄取速度，并且我们已经知道如何部署同步Clustering，本篇博客中，我们将讨论近期社区做的一些改进以及如何通过HoodieClusteringJob和DeltaStreamer工具来部署异步Clustering。
05.07 08:31:11

发表了文章 2022-05-07 08:31:11

Apache Hudi内核之文件标记机制深入解析

Hudi 支持在写入时自动清理未成功提交的数据。Apache Hudi 在写入时引入标记机制来有效跟踪写入存储的数据文件。在本博客中，我们将深入探讨现有直接标记文件机制的设计，并解释了其在云存储（如 AWS S3、Aliyun OSS）上针对非常大批量写入的性能问题。并且演示如何通过引入基于时间轴服务器的标记来提高写入性能。
05.07 08:29:13

发表了文章 2022-05-07 08:29:13

Apache Hudi 0.9.0版本重磅发布！更强大的流式数据湖平台

笔记
05.07 08:26:34

发表了文章 2022-05-07 08:26:34

基于Apache Hudi构建数据湖的典型应用场景介绍

笔记
05.07 08:23:40

发表了文章 2022-05-07 08:23:40

触宝科技基于Apache Hudi的流批一体架构实践

当前公司的大数据实时链路如下图，数据源是MySQL数据库，然后通过Binlog Query的方式消费或者直接客户端采集到Kafka，最终通过基于Spark/Flink实现的批流一体计算引擎处理，最后输出到下游对应的存储。
05.07 08:21:02

发表了文章 2022-05-07 08:21:02

Apache Hudi在Hopworks机器学习的应用

Hopsworks特征存储库统一了在线和批处理应用程序的特征访问而屏蔽了双数据库系统的复杂性。我们构建了一个可靠且高性能的服务，以将特征物化到在线特征存储库，不仅仅保证低延迟访问，而且还保证在服务时间可以访问最新鲜的特征值。
05.07 08:16:12

发表了文章 2022-05-07 08:16:12

通过Z-Order技术加速Hudi大规模数据集分析方案

多维分析是大数据分析的一个典型场景，这种分析一般带有过滤条件。对于此类查询，尤其是在高基字段的过滤查询，理论上只我们对原始数据做合理的布局，结合相关过滤条件，查询引擎可以过滤掉大量不相关数据，只需读取很少部分需要的数据。例如我们在入库之前对相关字段做排序，这样生成的每个文件相关字段的min－max值是不存在交叉的，查询引擎下推过滤条件给数据源结合每个文件的min－max统计信息，即可过滤掉大量不相干数据。上述技术即我们通常所说的data clustering 和 data skip。直接排序可以在单个字段上产生很好的效果，如果多字段直接排序那么效果会大大折扣的，Z-Order可以较好的解决多
05.07 08:14:13

发表了文章 2022-05-07 08:14:13

一文彻底理解Apache Hudi的多版本清理服务

Apache Hudi提供了MVCC并发模型，保证写入端和读取端之间快照级别隔离。在本篇博客中我们将介绍如何配置来管理多个文件版本，此外还将讨论用户可使用的清理机制，以了解如何维护所需数量的旧文件版本，以使长时间运行的读取端不会失败。
05.07 08:11:44

发表了文章 2022-05-07 08:11:44

使用Apache Pulsar + Hudi构建Lakehouse方案了解下？

笔记
05.06 23:10:52

发表了文章 2022-05-06 23:10:52

Apache Hudi集成Spark SQL抢先体验

Apache Hudi集成Spark SQL抢先体验
05.06 23:06:28

发表了文章 2022-05-06 23:06:28

提升50%！Presto如何提升Hudi表查询性能？

分享一篇关于使用Hudi Clustering来优化Presto查询性能的talk
05.06 22:57:02

发表了文章 2022-05-06 22:57:02

干货！Apache Hudi如何智能处理小文件问题

Apache Hudi是一个流行的开源的数据湖框架，Hudi提供的一个非常重要的特性是自动管理文件大小，而不用用户干预。大量的小文件将会导致很差的查询分析性能，因为查询引擎执行查询时需要进行太多次文件的打开/读取/关闭。在流式场景中不断摄取数据，如果不进行处理，会产生很多小文件。
05.06 22:53:05

发表了文章 2022-05-06 22:53:05

重磅！解锁Apache Flink读写Apache Hudi新姿势

Apache Hudi 是目前最流行的数据湖解决方案之一，Data Lake Analytics 集成了 Hudi 服务高效的数据 MERGE（UPDATE/DELETE）场景；AWS 在 EMR 服务中预安装了 Apache Hudi，为用户提供高效的 record-level updates/deletes 和高效的数据查询管理；Uber 已经稳定运行 Apache Hudi 服务 4 年多，提供了低延迟的数据库同步和高效率的查询。自 2016 年 8 月上线以来，数据湖存储规模已经超过 100PB。
05.06 22:49:59

发表了文章 2022-05-06 22:49:59

Apache Hudi核心概念一网打尽

笔记
05.06 22:47:07

发表了文章 2022-05-06 22:47:07

Apache Hudi：CDC的黄金搭档

笔记
05.06 22:42:18

发表了文章 2022-05-06 22:42:18

Lakehouse: 统一数据仓库和高级分析的新一代开放平台

笔记
05.06 22:38:05

发表了文章 2022-05-06 22:38:05

通过Apache Hudi和Alluxio建设高性能数据湖

T3出行的杨华和张永旭描述了他们数据湖架构的发展。该架构使用了众多开源技术，包括Apache Hudi和Alluxio。在本文中，您将看到我们如何使用Hudi和Alluxio将数据摄取时间缩短一半。此外，数据分析人员如何使用Presto、Hudi和Alluxio让查询速度提高了10倍。我们基于数据编排为数据管道的多个阶段（包括提取和分析）构建了数据湖。
05.06 22:35:45

发表了文章 2022-05-06 22:35:45

Apache Hudi初学者指南

在深入研究Hudi机制之前，让我们首先了解Hudi正在解决的问题。
05.06 22:24:31

发表了文章 2022-05-06 22:24:31

使用Apache Hudi + Amazon S3 + Amazon EMR + AWS DMS构建数据湖

数据湖使组织能够在更短的时间内利用多个源的数据，而不同角色用户可以以不同的方式协作和分析数据，从而实现更好、更快的决策。Amazon Simple Storage Service（amazon S3）是针对结构化和非结构化数据的高性能对象存储服务，可以用来作为数据湖底层的存储服务。
05.06 22:17:16

发表了文章 2022-05-06 22:17:16

印度最大在线食品杂货公司Grofers的数据湖建设之路

作为印度最大的在线杂货公司的数据工程师，我们面临的主要挑战之一是让数据在整个组织中的更易用。但当评估这一目标时，我们意识到数据管道频繁出现错误已经导致业务团队对数据失去信心，结果导致他们永远无法确定哪个数据源是正确的并且可用于分析，因此每个步骤都会咨询数据平台团队，数据平台团队原本应该提供尽可能独立地做出基于数据的正确决策而又不减慢速度的工具。
05.06 22:03:50

发表了文章 2022-05-06 22:03:50

Apache Hudi助力nClouds加速数据交付

在nClouds上，当客户的业务决策取决于对近实时数据的访问时，客户通常会向我们寻求有关数据和分析平台的解决方案。但随着每天创建和收集的数据量都在增加，这使得使用传统技术进行数据分析成为一项艰巨的任务。本文我们将讨论nClouds如何帮助您应对数据延迟，数据质量，系统可靠性和数据隐私合规性方面的挑战。
05.06 21:46:18

发表了文章 2022-05-06 21:46:18

Apache Hudi与Apache Flink集成

笔记
05.06 21:41:33

发表了文章 2022-05-06 21:41:33

划重点！AWS的湖仓一体使用哪种数据湖格式进行衔接？

此前Apache Hudi社区一直有小伙伴询问能否使用Amazon Redshift查询Hudi表，现在它终于来了。
05.06 21:40:14

发表了文章 2022-05-06 21:40:14

Apache Hudi和Presto的前世今生

一篇由Apache Hudi PMC Bhavani Sudha Saktheeswaran和AWS Presto团队工程师Brandon Scheller分享Apache Hudi和Presto集成的一篇文章。
05.06 21:18:26

发表了文章 2022-05-06 21:18:26

Apache Hudi异步Compaction方式汇总

本篇文章对执行异步Compaction的不同部署模型一探究竟。
05.06 20:45:03

发表了文章 2022-05-06 20:45:03

详解Apache Hudi如何配置各种类型分区

Apache Hudi支持多种分区方式数据集，如多级分区、单分区、时间日期分区、无分区数据集等，用户可根据实际需求选择合适的分区方式，下面来详细了解Hudi如何配置何种类型分区。
05.06 20:41:02

发表了文章 2022-05-06 20:41:02

Apache Hudi表自动同步至阿里云数据湖分析DLA

Hudi 0.6.0版本之前只支持将Hudi表同步到Hive或者兼容Hive的MetaStore中，对于云上其他使用与Hive不同SQL语法MetaStore则无法支持，为解决这个问题，近期社区对原先的同步模块hudi-hive-sync进行了抽象改造，以支持将Hudi表同步到其他类型MetaStore中，如阿里云的数据湖分析DLA(https://www.aliyun.com/product/datalakeanalytics中。
05.06 19:15:12

发表了文章 2022-05-06 19:15:12

Apache Hudi + AWS S3 + Athena实战

Apache Hudi在阿里巴巴集团、EMIS Health，LinkNovate，Tathastu.AI，腾讯，Uber内使用，并且由Amazon AWS EMR和Google云平台支持，最近Amazon Athena支持了在Amazon S3上查询Apache Hudi数据集的能力，本博客将测试Athena查询S3上Hudi格式数据集。
05.06 19:04:40

发表了文章 2022-05-06 19:04:40

官宣！AWS Athena正式可查询Apache Hudi数据集

Apache Hudi是一个开源的增量数据处理框架，提供了行级insert、update、upsert、delete的细粒度处理能力（Upsert表示如果数据集中存在记录就更新；否则插入）。
05.06 18:56:48

发表了文章 2022-05-06 18:56:48

生态 | Apache Hudi集成Alluxio实践

笔记
05.06 18:55:03

发表了文章 2022-05-06 18:55:03

Apache Hudi重磅特性解读之存量表高效迁移机制

随着Apache Hudi变得越来越流行，一个挑战就是用户如何将存量的历史表迁移到Apache Hudi，Apache Hudi维护了记录级别的元数据以便提供upserts和增量拉取的核心能力。为利用Hudi的upsert和增量拉取能力，用户需要重写整个数据集让其成为Hudi表。此RFC提供一个无需重写整张表的高效迁移机制。
05.06 18:50:06

发表了文章 2022-05-06 18:50:06

Apache Hudi重磅特性解读之全局索引

Hudi表允许多种类型操作，包括非常常用的upsert，当然为支持upsert，Hudi依赖索引机制来定位记录在哪些文件中。当前，Hudi支持分区和非分区的数据集。分区数据集是将一组文件（数据）放在称为分区的桶中的数据集。一个Hudi数据集可能由N个分区和M个文件组成，这种组织结构也非常方便hive/presto/spark等引擎根据分区字段过滤以返回有限的数据量。而分区的值绝大多数情况下是从数据中得来，这个要求一旦一条记录映射到分区/桶，那么这个映射应该 a) 被Hudi知道；b) 在Hudi数据集生命周期里保持不变。
05.06 18:44:59

发表了文章 2022-05-06 18:44:59

使用Apache Spark和Apache Hudi构建分析数据湖

大多数现代数据湖都是基于某种分布式文件系统（DFS），如HDFS或基于云的存储，如AWS S3构建的。遵循的基本原则之一是文件的“一次写入多次读取”访问模型。这对于处理海量数据非常有用，如数百GB到TB的数据。

1

...

3

4

5

...

9

发表了文章 2024-05-15

Hudi基本概念
发表了文章 2024-05-15

Hudi MergeOnRead存储类型时Upsert分析
发表了文章 2024-05-15

hudi性能测试
发表了文章 2024-05-15

Hudi的管理与运维
发表了文章 2024-05-15

ApacheHudi与其他类似系统的比较
发表了文章 2024-05-15

ApacheHudi常见问题汇总
发表了文章 2024-05-15

使用Apache Hudi和Debezium构建健壮的CDC管道
发表了文章 2024-05-15

Data Lake架构揭秘
发表了文章 2024-05-15

Apache Hudi与Delta Lake对比
发表了文章 2024-05-15

Hudi 压缩(Compaction)实现分析
发表了文章 2024-05-15

使用Apache Hudi构建大规模、事务性数据湖
发表了文章 2024-05-15

Apache Hudi 异步Compaction部署方式汇总
发表了文章 2024-05-15

ApacheHudi使用问题汇总（一）
发表了文章 2024-05-15

ApacheHudi使用问题汇总（二）
发表了文章 2024-05-15

Spark读取变更Hudi数据集Schema实现分析
发表了文章 2024-05-15

假期结束还没缓过神？Hudi on Flink最新进展了解下？
发表了文章 2024-05-15

查询时间降低60%！Apache Hudi数据布局黑科技了解下
发表了文章 2024-05-15

Apache Flink 1.12.2集成Hudi 0.9.0运行指南
发表了文章 2024-05-15

提升50%+！Presto如何提升Hudi表查询性能？
发表了文章 2024-05-15

一文彻底理解Apache Hudi的清理服务

正在加载, 请稍后...

滑动查看更多

正在加载, 请稍后...

暂无更多信息

正在加载, 请稍后...

暂无更多信息

勋章

关注

粉丝