备案控制台

开发者社区数据库文章正文

年度合集！Apache Hudi 技术文章一次看个够

2024-03-07 166

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

云原生数据仓库AnalyticDB MySQL版，基础版 8ACU 100GB 1个月

简介： 年度合集！Apache Hudi 技术文章一次看个够

Hudi实践

生产实践

基于Apache Hudi 构建Serverless实时分析平台

阿里云ADB基于Hudi构建Lakehouse的实践

基于Flink+Hudi在兴盛优选营销域实时数仓的实践

Apache Hudi在腾讯的落地与应用

医疗在线OLAP场景下基于Apache Hudi 模式演变的改造与应用

Flink SQL操作Apache Hudi并同步Hive使用总结

从 Apache Kudu 迁移到 Apache Hudi

Apache Hudi + Flink的实时数据湖实践探索

基于Apache Hudi + MinIO 构建流式数据湖

基于Apache Hudi + Linkis构建数据湖实践

万字长文：基于Apache Hudi + Flink多流拼接(大宽表)最佳实践

字节跳动基于 Apache Hudi 构建实时数仓的实践

华为云 MRS 基于 Apache Hudi 极致查询优化的探索实践

基于 Apache Hudi 的湖仓一体技术在 Shopee 的实践

字节跳动基于Apache Doris + Hudi的湖仓分析探索实践

使用 Apache Hudi 实现 SCD-2（渐变维度）

基于 Apache Hudi + Presto + AWS S3 构建开放Lakehouse

使用 Apache Flink 和 Apache Hudi 创建低延迟数据湖管道

基于Apache Hudi的多库多表实时入湖最佳实践

基于Apache Hudi 和 Microsoft Azure构建Lakehouse指南

基于 Apache Hudi + dbt 构建开放的Lakehouse

基于 Apache Hudi 构建分析型数据湖

B站基于Apache Hudi的增量数据湖探索与实践

基于Apache Hudi拉链表的全量表极限存储优化方案

腾讯广告业务基于Apache Flink + Hudi的批流一体实践

基于TIS构建Apache Hudi千表入湖方案

基于Apache Flink + Hudi的增量ETL架构

字节跳动基于Apache Hudi的实时数据湖实践

字节跳动基于 Apache Hudi 的多流拼接实践

Halodoc使用Apache Hudi构建Lakehouse的关键经验

KLOOK客路旅行基于Apache Hudi的数据湖实践

B 站基于Apache Hudi + Flink的增量化探索与实践

使用 Apache Flink + Hudi 构建流式数据湖平台

Apache Hudi如何加速传统批处理模式？

基于 Apache Hudi 构建增量和无限回放事件流的 OLAP 平台

基于Apache Hudi在Google云平台构建数据湖

基于Apache Hudi和Debezium构建CDC入湖管道

Apache Hudi Bucket Index 在字节跳动的设计与实践

Robinhood基于Apache Hudi的下一代数据湖实践

字节跳动基于Apache Hudi的数据湖集成实践

字节跳动数据湖技术选型的思考

内核剖析

一文聊透Apache Hudi的索引设计与应用

硬核！Apache Hudi Schema演变深度分析与应用

详解Apache Hudi Schema Evolution(模式演进)

Apache Hudi数据跳过技术加速查询高达50倍

深入理解Apache Hudi异步索引机制

超级重磅！Apache Hudi多模索引对查询优化高达30倍

聊一聊Hudi的原理（2）

聊一聊Apache Hudi的原理（1）

超硬核！详解Apache Hudi灵活的Payload机制

查询性能提升3倍！Apache Hudi 查询优化了解下？

数据湖生态

腾讯云DLC(数据湖计算)重磅支持Apache Hudi

强强联合！StarRocks 支持 Apache Hudi

一个理想的数据湖应具备哪些功能？

Lakehouse架构指南

Data Lakehouse架构解析

Apache Hudi vs Delta Lake：透明TPC-DS Lakehouse性能基准

印尼医疗龙头企业Halodoc的数据平台转型之Lakehouse架构

重磅！Apache Hudi联合传智教育推出免费中文视频教程

使用Apache RocketMQ + Hudi 快速构建 Lakehouse

重磅！Vertica集成Apache Hudi指南

一文带你了解Lakehouse的并发控制：我们是否过于乐观？

文章标签：

云原生数据仓库AnalyticDB MySQL版

实时计算 Flink版

Apache

流计算

SQL

索引

OLAP

关键词：

Apache技术

Apache hudi

Apache hudi技术

Apache文章

Apache技术文章

相关实践学习

AnalyticDB MySQL海量数据秒级分析体验

快速上手AnalyticDB MySQL，玩转SQL开发等功能！本教程介绍如何在AnalyticDB MySQL中，一键加载内置数据集，并基于自动生成的查询脚本，运行复杂查询语句，秒级生成查询结果。

阿里云云原生数据仓库AnalyticDB MySQL版使用教程

云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库，高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准，可以对海量数据进行即时的多维分析透视和业务探索，快速构建企业云上数据仓库。了解产品 https://www.aliyun.com/product/ApsaraDB/ads

xleesf

目录

相关文章

灵杰开发者

|

2月前

|

消息中间件资源调度 API

Apache Flink 流批融合技术介绍

本文源自阿里云高级研发工程师周云峰在Apache Asia Community OverCode 2024的分享，内容涵盖从“流批一体”到“流批融合”的演进、技术解决方案及社区进展。流批一体已在API、算子和引擎层面实现统一，但用户仍需手动配置作业模式。流批融合旨在通过动态调整优化策略，自动适应不同场景需求。文章详细介绍了如何通过量化指标（如isProcessingBacklog和isInsertOnly）实现这一目标，并展示了针对不同场景的具体优化措施。此外，还概述了社区当前进展及未来规划，包括将优化方案推向Flink社区、动态调整算子流程结构等。

灵杰开发者

369 31 33

Apache Flink 流批融合技术介绍

武子康

|

25天前

|

存储分布式计算 druid

大数据-149 Apache Druid 基本介绍技术特点应用场景

大数据-149 Apache Druid 基本介绍技术特点应用场景

武子康

48 1 1

大数据-149 Apache Druid 基本介绍技术特点应用场景

喜欢猪猪

|

2月前

|

分布式计算 Java Apache

Apache Spark Streaming技术深度解析

【9月更文挑战第4天】Apache Spark Streaming是Apache Spark生态系统中用于处理实时数据流的一个重要组件。它将输入数据分成小批次（micro-batch），然后利用Spark的批处理引擎进行处理，从而结合了批处理和流处理的优点。这种处理方式使得Spark Streaming既能够保持高吞吐量，又能够处理实时数据流。

喜欢猪猪

68 0 0

阿里云瑶池数据库SelectDB

|

4月前

|

SQL 分布式计算 Apache

Apache Doris + Apache Hudi 快速搭建指南｜Lakehouse 使用手册（一）

本文将在 Docker 环境下，为读者介绍如何快速搭建 Apache Doris + Apache Hudi 的测试及演示环境，并对各功能操作进行演示，帮助读者快速入门。

阿里云瑶池数据库SelectDB

113 0 0

Apache Doris + Apache Hudi 快速搭建指南｜Lakehouse 使用手册（一）

公众号:码到三十五

|

5月前

|

Java 数据库连接 Apache

深入理解Apache Commons Pool2池化技术

深入理解Apache Commons Pool2池化技术

公众号:码到三十五

214 5 5

1941623231718325

|

5月前

|

存储大数据分布式数据库

使用Apache HBase进行大数据存储：技术解析与实践

【6月更文挑战第7天】Apache HBase，一个基于HDFS的列式存储NoSQL数据库，提供高可靠、高性能的大数据存储。其特点是列式存储、可扩展至PB级数据、低延迟读写及多版本控制。适用场景包括大规模数据存储、实时分析、日志存储和推荐系统。实践包括集群环境搭建、数据模型设计、导入、查询及性能优化。HBase在大数据存储领域扮演关键角色，未来有望在更多领域发挥作用。

1941623231718325

249 3 4

1941623231718325

|

5月前

|

监控数据处理调度

使用Apache Airflow进行工作流编排：技术详解与实践

【6月更文挑战第5天】Apache Airflow是开源的工作流编排平台，用Python定义复杂数据处理管道，提供直观DAGs、强大调度、丰富插件、易扩展性和实时监控。本文深入介绍Airflow基本概念、特性，阐述安装配置、工作流定义、调度监控的步骤，并通过实践案例展示如何构建数据获取、处理到存储的工作流。Airflow简化了复杂数据任务管理，适应不断发展的数据技术需求。

1941623231718325

1038 3 3

1941623231718325

|

5月前

|

缓存监控负载均衡

使用Apache Solr进行搜索优化的技术探索

【6月更文挑战第6天】探索Apache Solr搜索优化，通过字段选择、分析器优化、索引压缩提升索引效率；优化查询分析、缓存、分组排序以增强查询性能；硬件升级、分布式部署及监控调优保证系统稳定性。实战案例展示如何在电商平台上应用这些策略，实现快速准确的搜索服务。Solr在大数据时代展现出广阔的应用潜力。

1941623231718325

117 1 1

公众号:码到三十五

|

5月前

|

easyexcel Java API

Apache POI与easyExcel：Excel文件导入导出的技术深度分析

Apache POI与easyExcel：Excel文件导入导出的技术深度分析

公众号:码到三十五

342 0 0

花开富贵111

|

5月前

|

消息中间件 Java Kafka

实时计算 Flink版操作报错合集之从hudi读数据，报错NoSuchMethodError:org.apache.hudi.format.cow.vector.reader.PaequetColumnarRowSplit.getRecord()，该怎么办

在使用实时计算Flink版过程中，可能会遇到各种错误，了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题，查看Flink的日志是关键，它们通常会提供更详细的错误信息和堆栈跟踪，有助于定位问题。此外，Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。

花开富贵111

116 0 0

热门文章

最新文章

Apache Flink 进阶（三）：Checkpoint 原理解析与应用实践

Serverless 工程实践 | 自建 Apache OpenWhisk 平台

CDP中的Hive3系列之Apache Hive3的特性

知乎基于 Apache Doris 的 DMP 平台架构建设实践｜万字长文详解

Apache Doris Grafana监控指标介绍

RHEL 5不能安装Apache

apache htpasswd命令

AB（apache benchmark）压力测试

Apache Kafka开发入门指南

Apache + Tomcat 配置负载均衡

从 Volcano 火山模型到 Pipeline 执行模型，阿里云数据库 SelectDB 内核 Apache Doris 执行模型的迭代

欢迎报名 Apache Seata (incubating) 开源之夏

构建高性能Web服务器：Nginx vs Apache

Maven配置以及IDEA设置（Cannot resolve plugin org.apache.maven.plugins:报错）

从离线到实时：无锡锡商银行基于 Apache Doris 的数据仓库演进实践

Centos7 安装Apache

在STS里使用Gradle编译Apache POI5.0.0

数据猎手：使用Java和Apache HttpComponents库下载Facebook图像

Apache服务器配置与优化指南

Golang深入浅出之-Go语言中的分布式计算框架Apache Beam

相关课程

更多

Apache RocketMQ：如何从互联网时代演进到云

Apache Flink 入门到实战 - Flink开源社区出品

Apache Flink 入门

大数据实时计算框架Spark快速入门

大数据Hive教程精讲

基于Flink的实时大数据应用Demo

相关电子书

更多

Apache Flink技术进阶

Apache Spark: Cloud and On-Prem

Hybrid Cloud and Apache Spark

相关实验场景

更多

基于Hologres+Flink搭建GitHub实时数据大屏

5分钟上手Flink MySQL连接器

使用Flink实时发现最热Github项目

推荐镜像

更多

apache

packman

CPAN

下一篇

阿里云无影云电脑免费试用，最长可试用3个月