年度合集!Apache Hudi 技术文章一次看个够

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 年度合集!Apache Hudi 技术文章一次看个够

Hudi实践

生产实践

 基于Apache Hudi 构建Serverless实时分析平台

阿里云ADB基于Hudi构建Lakehouse的实践

基于Flink+Hudi在兴盛优选营销域实时数仓的实践

Apache Hudi在腾讯的落地与应用

医疗在线OLAP场景下基于Apache Hudi 模式演变的改造与应用

Flink SQL操作Apache Hudi并同步Hive使用总结

从 Apache Kudu 迁移到 Apache Hudi

Apache Hudi + Flink的实时数据湖实践探索

基于Apache Hudi + MinIO 构建流式数据湖

基于Apache Hudi + Linkis构建数据湖实践

万字长文:基于Apache Hudi + Flink多流拼接(大宽表)最佳实践

字节跳动基于 Apache Hudi 构建实时数仓的实践

华为云 MRS 基于 Apache Hudi 极致查询优化的探索实践

基于 Apache Hudi 的湖仓一体技术在 Shopee 的实践

字节跳动基于Apache Doris + Hudi的湖仓分析探索实践

使用 Apache Hudi 实现 SCD-2(渐变维度)

基于 Apache Hudi + Presto + AWS S3 构建开放Lakehouse

使用 Apache Flink 和 Apache Hudi 创建低延迟数据湖管道

基于Apache Hudi的多库多表实时入湖最佳实践

基于Apache Hudi 和 Microsoft Azure构建Lakehouse指南

基于 Apache Hudi + dbt 构建开放的Lakehouse

基于 Apache Hudi 构建分析型数据湖

B站基于Apache Hudi的增量数据湖探索与实践

基于Apache Hudi拉链表的全量表极限存储优化方案

腾讯广告业务基于Apache Flink + Hudi的批流一体实践

基于TIS构建Apache Hudi千表入湖方案

基于Apache Flink + Hudi的增量ETL架构

字节跳动基于Apache Hudi的实时数据湖实践

字节跳动基于 Apache Hudi 的多流拼接实践

Halodoc使用Apache Hudi构建Lakehouse的关键经验

KLOOK客路旅行基于Apache Hudi的数据湖实践

B 站基于Apache Hudi + Flink的增量化探索与实践

使用 Apache Flink + Hudi 构建流式数据湖平台

Apache Hudi如何加速传统批处理模式?

基于 Apache Hudi 构建增量和无限回放事件流的 OLAP 平台

基于Apache Hudi在Google云平台构建数据湖

基于Apache Hudi和Debezium构建CDC入湖管道

Apache Hudi Bucket Index 在字节跳动的设计与实践

Robinhood基于Apache Hudi的下一代数据湖实践

字节跳动基于Apache Hudi的数据湖集成实践

字节跳动数据湖技术选型的思考

内核剖析

一文聊透Apache Hudi的索引设计与应用

硬核!Apache Hudi Schema演变深度分析与应用

详解Apache Hudi Schema Evolution(模式演进)

Apache Hudi数据跳过技术加速查询高达50倍

深入理解Apache Hudi异步索引机制

超级重磅!Apache Hudi多模索引对查询优化高达30倍

聊一聊Hudi的原理(2)

聊一聊Apache Hudi的原理(1)

超硬核!详解Apache Hudi灵活的Payload机制

查询性能提升3倍!Apache Hudi 查询优化了解下?

数据湖生态

腾讯云DLC(数据湖计算)重磅支持Apache Hudi

强强联合!StarRocks 支持 Apache Hudi

一个理想的数据湖应具备哪些功能?

Lakehouse架构指南

Data Lakehouse架构解析

Apache Hudi vs Delta Lake:透明TPC-DS Lakehouse性能基准

印尼医疗龙头企业Halodoc的数据平台转型之Lakehouse架构

重磅!Apache Hudi联合传智教育推出免费中文视频教程

使用Apache RocketMQ + Hudi 快速构建 Lakehouse

重磅!Vertica集成Apache Hudi指南

一文带你了解Lakehouse的并发控制:我们是否过于乐观?

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
2月前
|
消息中间件 资源调度 API
Apache Flink 流批融合技术介绍
本文源自阿里云高级研发工程师周云峰在Apache Asia Community OverCode 2024的分享,内容涵盖从“流批一体”到“流批融合”的演进、技术解决方案及社区进展。流批一体已在API、算子和引擎层面实现统一,但用户仍需手动配置作业模式。流批融合旨在通过动态调整优化策略,自动适应不同场景需求。文章详细介绍了如何通过量化指标(如isProcessingBacklog和isInsertOnly)实现这一目标,并展示了针对不同场景的具体优化措施。此外,还概述了社区当前进展及未来规划,包括将优化方案推向Flink社区、动态调整算子流程结构等。
369 31
Apache Flink 流批融合技术介绍
|
25天前
|
存储 分布式计算 druid
大数据-149 Apache Druid 基本介绍 技术特点 应用场景
大数据-149 Apache Druid 基本介绍 技术特点 应用场景
48 1
大数据-149 Apache Druid 基本介绍 技术特点 应用场景
|
2月前
|
分布式计算 Java Apache
Apache Spark Streaming技术深度解析
【9月更文挑战第4天】Apache Spark Streaming是Apache Spark生态系统中用于处理实时数据流的一个重要组件。它将输入数据分成小批次(micro-batch),然后利用Spark的批处理引擎进行处理,从而结合了批处理和流处理的优点。这种处理方式使得Spark Streaming既能够保持高吞吐量,又能够处理实时数据流。
68 0
|
4月前
|
SQL 分布式计算 Apache
Apache Doris + Apache Hudi 快速搭建指南|Lakehouse 使用手册(一)
本文将在 Docker 环境下,为读者介绍如何快速搭建 Apache Doris + Apache Hudi 的测试及演示环境,并对各功能操作进行演示,帮助读者快速入门。
Apache Doris + Apache Hudi 快速搭建指南|Lakehouse 使用手册(一)
|
5月前
|
Java 数据库连接 Apache
深入理解Apache Commons Pool2池化技术
深入理解Apache Commons Pool2池化技术
|
5月前
|
存储 大数据 分布式数据库
使用Apache HBase进行大数据存储:技术解析与实践
【6月更文挑战第7天】Apache HBase,一个基于HDFS的列式存储NoSQL数据库,提供高可靠、高性能的大数据存储。其特点是列式存储、可扩展至PB级数据、低延迟读写及多版本控制。适用场景包括大规模数据存储、实时分析、日志存储和推荐系统。实践包括集群环境搭建、数据模型设计、导入、查询及性能优化。HBase在大数据存储领域扮演关键角色,未来有望在更多领域发挥作用。
|
5月前
|
监控 数据处理 调度
使用Apache Airflow进行工作流编排:技术详解与实践
【6月更文挑战第5天】Apache Airflow是开源的工作流编排平台,用Python定义复杂数据处理管道,提供直观DAGs、强大调度、丰富插件、易扩展性和实时监控。本文深入介绍Airflow基本概念、特性,阐述安装配置、工作流定义、调度监控的步骤,并通过实践案例展示如何构建数据获取、处理到存储的工作流。Airflow简化了复杂数据任务管理,适应不断发展的数据技术需求。
1038 3
|
5月前
|
缓存 监控 负载均衡
使用Apache Solr进行搜索优化的技术探索
【6月更文挑战第6天】探索Apache Solr搜索优化,通过字段选择、分析器优化、索引压缩提升索引效率;优化查询分析、缓存、分组排序以增强查询性能;硬件升级、分布式部署及监控调优保证系统稳定性。实战案例展示如何在电商平台上应用这些策略,实现快速准确的搜索服务。Solr在大数据时代展现出广阔的应用潜力。
|
5月前
|
easyexcel Java API
Apache POI与easyExcel:Excel文件导入导出的技术深度分析
Apache POI与easyExcel:Excel文件导入导出的技术深度分析
|
5月前
|
消息中间件 Java Kafka
实时计算 Flink版操作报错合集之从hudi读数据,报错NoSuchMethodError:org.apache.hudi.format.cow.vector.reader.PaequetColumnarRowSplit.getRecord(),该怎么办
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
116 0

推荐镜像

更多