揭秘!Apache Hudi社区发展数据盘点

简介: 揭秘!Apache Hudi社区发展数据盘点

1. 引入

随着数据湖的逐渐普及,Apache Hudi社区也在不断发展,为越来越多人熟知,现盘点过去一段时间Hudi社区发展的数据。

项目主页:https://github.com/apache/incubator-hudi用户文档:https://hudi.apache.org技术文档:https://cwiki.apache.org/confluence/display/HUDI

2. 数据

2.1 Star

自Hudi捐赠给Apache基金会孵化后,现已累计超过1K个star,越来越多的开发者关注到了Hudi这个数据湖项目。

2.2 Fork

总共有超过400个Fork,一般Apache项目的Star与Fork数比例大致在2:1,社区发展很良性,欢迎开发者进行Star & Fork。

2.3 Contributors

Hudi社区Contributors总共有86位,来自全球各地的开发者为Hudi社区在贡献代码,国内小伙伴们在社区也发挥着越来越大的作用。

2.4 Commits

Hudi总共累计有超过850次commit,近三个月超过180次Commit。

2.5 Issues

Hudi JIRA在过去三个月总共新创建了大约260个issue,解决了140个issue。

2.6 Release

截至目前,总共发布了2个Apache版本(0.5.0,0.5.1),近三个月来发布了0.5.1版本以及马上释出的0.5.2版本; 在此之前,发布接近30个Uber版本,如果你使用的是Uber版本,官方也提供了迁移文档。

2.7 Committers & PPMC

除初始Committers/PPMC成员外,截止到目前社区总共吸纳了4名Committer,2名PPMC,可以看到Hudi社区很开放,对于持续贡献/活跃的开发者会进行Committer/PPMC提名,这里也欢迎大家参与到Hudi社区建设,提升个人影响力,早日成为Committer/PPMC。

2.8 邮件列表

过去三个月在邮件列表中讨论了超过130个topic,累计680封邮件,超过75人参与了讨论,欢迎大家订阅dev@hudi.apache.org邮件列表(发送一封邮件至dev-subscribe@hudi.apache.org,然后确认回复即可),积极参与社区讨论。

2.9 演讲

过去三个月关于Hudi的演讲如下


  1. "Building Robust CDC Pipeline With Apache Hudi And Debezium"


  2. "Using Apache Hudi to build the next-generation data lake and its application in medical big data"


  3. "Building a near real-time, high-performance data warehouse based on Apache Hudi and Apache Kylin"

所有的演讲可访问http://hudi.incubator.apache.org/docs/powered_by.html#talks--presentations查看

2.10 群组

除了通过邮件列表参与社区讨论,Hudi还提供了Slack(Hudi README中点击join slack即可加入)供全球开发者交流探讨问题,Slack总共有超过全球320位开发者(包括来自AWS、UBER、社区Committer等成员)。当然国内小伙伴也创建了微信群(超过270人)及QQ群(超过240人)供国内开发者讨论Hudi相关问题,欢迎加入(扫码或发送微信号至公众号)。

3. 总结

可以看到,截止到目前及过去三个月,无论是Commit、ML讨论、Release、问题讨论等方面,Hudi社区发展速度都很快,越来越多的开发者关注到这个项目并且参与到了社区的开发,这里也对每一位开发者表示感谢,正是有你们的参与才能让Hudi社区越来越好,也让我们继续携手构建下一代更好地数据湖。

目录
相关文章
存储 数据管理 物联网
230 0
存储 SQL 分布式计算
158 0
|
8月前
|
存储 人工智能 数据处理
Apache Doris 2025 Roadmap:构建 GenAI 时代实时高效统一的数据底座
秉承“以场景驱动创新” 的核心理念,持续深耕三大核心场景的关键能力,并对大模型 GenAI 场景的融合应用进行重点投入,为智能时代构建实时、高效、统一的数据底座。
419 10
Apache Doris 2025 Roadmap:构建 GenAI 时代实时高效统一的数据底座
|
9月前
|
消息中间件 人工智能 Apache
Apache RocketMQ 中文社区全新升级!
Apache RocketMQ 中文社区全新升级!
210 7
|
9月前
|
存储 大数据 数据处理
您有一份 Apache Flink 社区年度报告请查收~
您有一份 Apache Flink 社区年度报告请查收~
149 0
|
10月前
|
存储 SQL 数据挖掘
数据无界、湖仓无界, Apache Doris 湖仓一体解决方案全面解读(上篇)
湖仓一体架构融合了数据湖的低成本、高扩展性,以及数据仓库的高性能、强数据治理能力,高效应对大数据时代的挑战。为助力企业实现湖仓一体的建设,Apache Doris 提出了数据无界和湖仓无界核心理念,并结合自身特性,助力企业加速从 0 到 1 构建湖仓体系,降低转型过程中的风险和成本。本文将对湖仓一体演进及 Apache Doris 湖仓一体方案进行介绍。
901 1
数据无界、湖仓无界, Apache Doris 湖仓一体解决方案全面解读(上篇)
|
10月前
|
存储 运维 监控
从 ClickHouse 到 Apache Doris:在网易云音乐日增万亿日志数据场景下的落地
日志数据已成为企业洞察系统状态、监控网络安全及分析业务动态的宝贵资源。网易云音乐引入 Apache Doris 作为日志库新方案,替换了 ClickHouse。解决了 ClickHouse 运维复杂、不支持倒排索引的问题。目前已经稳定运行 3 个季度,规模达到 50 台服务器, 倒排索引将全文检索性能提升7倍,2PB 数据,每天新增日志量超过万亿条,峰值写入吞吐 6GB/s 。
640 5
从 ClickHouse 到 Apache Doris:在网易云音乐日增万亿日志数据场景下的落地
|
SQL 消息中间件 大数据
大数据-159 Apache Kylin 构建Cube 准备和测试数据(一)
大数据-159 Apache Kylin 构建Cube 准备和测试数据(一)
310 1
|
SQL 大数据 Apache
大数据-159 Apache Kylin 构建Cube 准备和测试数据(二)
大数据-159 Apache Kylin 构建Cube 准备和测试数据(二)
196 1
|
分布式计算 监控 大数据
大数据-148 Apache Kudu 从 Flink 下沉数据到 Kudu
大数据-148 Apache Kudu 从 Flink 下沉数据到 Kudu
273 1

推荐镜像

更多