快速参与下一代数据湖顶级项目ApacheHudi

简介: 快速参与下一代数据湖顶级项目ApacheHudi

1. 介绍

数据湖作为下一代技术,概念持续火热,国内外已经有越来越多的公司开始调研并采用 ApacheHudi。开发者对于新的 feature、发现的 bug、对项目的 question等, Hudi社区都鼓励开发者通过邮件列表、提 JiraIssuePR等方式参与社区,这样能形成良好的社区氛围,促进社区快速发展。对于想要参与社区开发但还不知道如何参与的开发者,本篇文章给出了指引。

2. 准备

若开发者之前已经参与过Apache社区的其他项目,对此流程应该非常熟悉,可略过余下部分,直接提出你的第一个Hudi PR!

2.1 账号准备

2.2 PR准备


  • 为鼓励开发者快速参与 Hudi社区,社区会将一些简单任务标记为 starternewbie,可通过这里(https://issues.apache.org/jira/issues/?jql=project+%3D+HUDI+AND+component+%3D+newbie)查找新手任务,对于未修复的 jira单,用户可 assign给自己,对于较大功能修改或bug修复,可先在页面上与其他开发者讨论具体实现思路,确保思路可行并达到统一后再开始编码。


  • Fork https://github.com/apache/incubator-hudi/ 到自己的仓库(可顺手star)。


  • Clone自己仓库的 incubator-hudi到本地。


  • cd incubator-hudi 进入本地项目根目录。


  • git remote add upstream https://github.com/apache/incubator-hudi.gitapache仓库 incubator-hudi添加为 upstream。后续可使用 git fetch upstream master,git merge upstream/master,git push origin master来同步 apache仓库 master分支的修改至自己远程仓库的 master分支,当然也可以选择其他工作流,如将 apache仓库的项目添加为 origin,自己仓库的项目添加为 upstream,同步仓库的修改操作也类似。


  • 基于 Apache仓库的 master分支最新代码, checkout新分支(一般建议根据 jira号创建,如 git checkout-b HUDI-666)。


  • 在新分支上修改代码,完成修改后使用 git add.git commit-m"[HUDI-666] pr description"git push origin HUDI-666:HUDI-666推至自己仓库的远端, commit信息一般建议使用 [HUDI-xxx]jira summary的格式,如 git commit-m"[HUD-666] refactor hudi-common based on new checkstyle"


  • 进入 githubincubator-hudi页面发起一个 PR,然后等待 review(社区会有专人进行 review,效率较高)和 merge

2.3 加入Slack

为方便 Hudi开发者快速交流, Hudi社区创建了 HudiSlackChannel,可在这里https://github.com/apache/incubator-hudi/issues/143留下你的邮箱,会有人邀请你加入 HudiSlackChannel

2.4 订阅邮件列表

为方便归档和符合 Apache社区运行之道,社区建议使用邮件列表讨论问题、进行投票等,可订阅dev@hudi.apache.org(建议尽量不要使用qq邮箱订阅,可能会被过滤掉)。

订阅方式很简单,给dev-subscribe@hudi.apache.org发送一封邮件,收到回复后再进行一次确认回复即可。完成订阅后即可参与和发起在dev@hudi.apache.org的讨论。

3. 总结

Hudi社区非常欢迎和鼓励广大开发者参与到社区建设中来,一起促进 Hudi社区的发展,取之开源、回馈开源,一起促进数据湖技术的发展,期待你的第一个PR!

PS:其他Apache项目的参与流程也大致类似。

目录
相关文章
|
8月前
|
SQL 分布式计算 数据处理
Uber基于Apache Hudi增量 ETL 构建大规模数据湖
Uber基于Apache Hudi增量 ETL 构建大规模数据湖
176 2
|
8月前
|
存储 SQL 分布式计算
基于Apache Hudi + MinIO 构建流式数据湖
基于Apache Hudi + MinIO 构建流式数据湖
285 1
|
9天前
|
存储 SQL 大数据
从数据存储到分析:构建高效开源数据湖仓解决方案
今年开源大数据迈向湖仓一体(Lake House)时代,重点介绍Open Lake解决方案。该方案基于云原生架构,兼容开源生态,提供开箱即用的数据湖仓产品。其核心优势在于统一数据管理和存储,支持实时与批处理分析,打破多计算产品的数据壁垒。通过阿里云的Data Lake Formation和Apache Paimon等技术,用户可高效搭建、管理并分析大规模数据,实现BI和AI融合,满足多样化数据分析需求。
|
5月前
|
数据采集 存储 分布式计算
构建智能数据湖:DataWorks助力企业实现数据驱动转型
【8月更文第25天】本文将详细介绍如何利用阿里巴巴云的DataWorks平台构建一个智能、灵活、可扩展的数据湖存储体系,以帮助企业实现数据驱动的业务转型。我们将通过具体的案例和技术实践来展示DataWorks如何集成各种数据源,并通过数据湖进行高级分析和挖掘,最终基于数据洞察驱动业务增长和创新。
364 53
|
存储 人工智能 数据库
企业级数据湖的构建之道(一)
企业级数据湖的构建之道(一)
201 1
|
6月前
|
存储 搜索推荐 数据建模
阿里巴巴大数据实践之数据建模:构建企业级数据湖
阿里巴巴通过构建高效的数据湖和实施先进的数据建模策略,实现了数据驱动的业务增长。这些实践不仅提升了内部运营效率,也为客户提供了更好的服务体验。随着数据量的不断增长和技术的不断创新,阿里巴巴将持续优化其数据建模方法,以适应未来的变化和发展。
|
8月前
|
存储 人工智能 运维
数据湖建设实践:使用AWS S3与LakeFormation构建灵活数据存储
【4月更文挑战第8天】本文分享了使用AWS S3和LakeFormation构建数据湖的经验。选择S3作为数据湖存储,因其无限容量、高可用性和持久性,以及与多种系统的兼容性。LakeFormation则负责数据治理和权限管理,包括元数据管理、简化数据接入、细粒度权限控制和审计。通过这种方式,团队实现了敏捷开发、成本效益和数据安全。未来,数据湖将融合更多智能化元素,如AI和ML,以提升效能和体验。此实践为数据驱动决策和企业数字化转型提供了有力支持。
437 2
|
8月前
|
存储 分布式计算 分布式数据库
字节跳动基于Apache Hudi构建EB级数据湖实践
字节跳动基于Apache Hudi构建EB级数据湖实践
114 2
|
8月前
|
存储 消息中间件 SQL
基于 Apache Hudi 构建分析型数据湖
基于 Apache Hudi 构建分析型数据湖
68 4
|
8月前
|
消息中间件 监控 Kafka
Yotpo构建零延迟数据湖实践
Yotpo构建零延迟数据湖实践
137 0
下一篇
开通oss服务