揭秘!Apache Hudi社区发展数据盘点

简介: 揭秘!Apache Hudi社区发展数据盘点

1. 引入

随着数据湖的逐渐普及,Apache Hudi社区也在不断发展,为越来越多人熟知,现盘点过去一段时间Hudi社区发展的数据。

项目主页:https://github.com/apache/incubator-hudi用户文档:https://hudi.apache.org技术文档:https://cwiki.apache.org/confluence/display/HUDI

2. 数据

2.1 Star

自Hudi捐赠给Apache基金会孵化后,现已累计超过1K个star,越来越多的开发者关注到了Hudi这个数据湖项目。

2.2 Fork

总共有超过400个Fork,一般Apache项目的Star与Fork数比例大致在2:1,社区发展很良性,欢迎开发者进行Star & Fork。

2.3 Contributors

Hudi社区Contributors总共有86位,来自全球各地的开发者为Hudi社区在贡献代码,国内小伙伴们在社区也发挥着越来越大的作用。

2.4 Commits

Hudi总共累计有超过850次commit,近三个月超过180次Commit。

2.5 Issues

Hudi JIRA在过去三个月总共新创建了大约260个issue,解决了140个issue。

2.6 Release

截至目前,总共发布了2个Apache版本(0.5.0,0.5.1),近三个月来发布了0.5.1版本以及马上释出的0.5.2版本; 在此之前,发布接近30个Uber版本,如果你使用的是Uber版本,官方也提供了迁移文档。

2.7 Committers & PPMC

除初始Committers/PPMC成员外,截止到目前社区总共吸纳了4名Committer,2名PPMC,可以看到Hudi社区很开放,对于持续贡献/活跃的开发者会进行Committer/PPMC提名,这里也欢迎大家参与到Hudi社区建设,提升个人影响力,早日成为Committer/PPMC。

2.8 邮件列表

过去三个月在邮件列表中讨论了超过130个topic,累计680封邮件,超过75人参与了讨论,欢迎大家订阅dev@hudi.apache.org邮件列表(发送一封邮件至dev-subscribe@hudi.apache.org,然后确认回复即可),积极参与社区讨论。

2.9 演讲

过去三个月关于Hudi的演讲如下


  1. "Building Robust CDC Pipeline With Apache Hudi And Debezium"


  2. "Using Apache Hudi to build the next-generation data lake and its application in medical big data"


  3. "Building a near real-time, high-performance data warehouse based on Apache Hudi and Apache Kylin"

所有的演讲可访问http://hudi.incubator.apache.org/docs/powered_by.html#talks--presentations查看

2.10 群组

除了通过邮件列表参与社区讨论,Hudi还提供了Slack(Hudi README中点击join slack即可加入)供全球开发者交流探讨问题,Slack总共有超过全球320位开发者(包括来自AWS、UBER、社区Committer等成员)。当然国内小伙伴也创建了微信群(超过270人)及QQ群(超过240人)供国内开发者讨论Hudi相关问题,欢迎加入(扫码或发送微信号至公众号)。

3. 总结

可以看到,截止到目前及过去三个月,无论是Commit、ML讨论、Release、问题讨论等方面,Hudi社区发展速度都很快,越来越多的开发者关注到这个项目并且参与到了社区的开发,这里也对每一位开发者表示感谢,正是有你们的参与才能让Hudi社区越来越好,也让我们继续携手构建下一代更好地数据湖。

目录
相关文章
|
2月前
|
物联网 数据管理 Apache
拥抱IoT浪潮,Apache IoTDB如何成为你的智能数据守护者?解锁物联网新纪元的数据管理秘籍!
【8月更文挑战第22天】随着物联网技术的发展,数据量激增对数据库提出新挑战。Apache IoTDB凭借其面向时间序列数据的设计,在IoT领域脱颖而出。相较于传统数据库,IoTDB采用树形数据模型高效管理实时数据,具备轻量级结构与高并发能力,并集成Hadoop/Spark支持复杂分析。在智能城市等场景下,IoTDB能处理如交通流量等数据,为决策提供支持。IoTDB还提供InfluxDB协议适配器简化迁移过程,并支持细致的权限管理确保数据安全。综上所述,IoTDB在IoT数据管理中展现出巨大潜力与竞争力。
57 1
|
3月前
|
消息中间件 人工智能 Apache
Apache RocketMQ 中文社区全新升级!
RocketMQ 中文社区升级发布只是起点,我们将持续优化体验细节,推出更多功能和服务,更重要的是提供更多全面、深度、高质量的内容。
509 14
|
2月前
|
存储 消息中间件 人工智能
AI大模型独角兽 MiniMax 基于阿里云数据库 SelectDB 版内核 Apache Doris 升级日志系统,PB 数据秒级查询响应
早期 MiniMax 基于 Grafana Loki 构建了日志系统,在资源消耗、写入性能及系统稳定性上都面临巨大的挑战。为此 MiniMax 开始寻找全新的日志系统方案,并基于阿里云数据库 SelectDB 版内核 Apache Doris 升级了日志系统,新系统已接入 MiniMax 内部所有业务线日志数据,数据规模为 PB 级, 整体可用性达到 99.9% 以上,10 亿级日志数据的检索速度可实现秒级响应。
AI大模型独角兽 MiniMax 基于阿里云数据库 SelectDB 版内核 Apache Doris 升级日志系统,PB 数据秒级查询响应
|
28天前
|
存储 大数据 数据挖掘
【数据新纪元】Apache Doris:重塑实时分析性能,解锁大数据处理新速度,引爆数据价值潜能!
【9月更文挑战第5天】Apache Doris以其卓越的性能、灵活的架构和高效的数据处理能力,正在重塑实时分析的性能极限,解锁大数据处理的新速度,引爆数据价值的无限潜能。在未来的发展中,我们有理由相信Apache Doris将继续引领数据处理的潮流,为企业提供更快速、更准确、更智能的数据洞察和决策支持。让我们携手并进,共同探索数据新纪元的无限可能!
78 11
|
2月前
|
消息中间件 人工智能 监控
|
2月前
|
消息中间件 Kafka Apache
流计算引擎数据问题之Apache Kafka Streams 没有采用低水印方案如何解决
流计算引擎数据问题之Apache Kafka Streams 没有采用低水印方案如何解决
43 0
|
2月前
|
消息中间件 Kafka Apache
流计算引擎数据问题之Apache Flink 的完整性推理方案设计如何解决
流计算引擎数据问题之Apache Flink 的完整性推理方案设计如何解决
47 0
|
2月前
|
监控 大数据 API
震撼来袭!Apache Flink:实时数据流处理界的超级巨星,开启全新纪元,让你的数据飞起来!
【8月更文挑战第6天】随着大数据时代的到来,企业急需高效处理实时数据流。Apache Flink作为一款开源流处理框架,以高性能、可靠性及易用性脱颖而出。Flink能无缝处理有界和无界数据流,支持低延迟实时分析,适用于实时推荐、监控及风控等场景。例如,在实时风控系统中,Flink可即时分析交易行为以检测欺诈。以下示例展示了如何使用Flink实时计算交易总额,通过定义Transaction类和使用DataStream API实现数据流的实时处理和聚合。Flink正以其强大的实时处理能力和高度可扩展性引领实时数据流处理的新时代。
51 0
|
3月前
|
SQL 分布式计算 Apache
Apache Doris + Apache Hudi 快速搭建指南|Lakehouse 使用手册(一)
本文将在 Docker 环境下,为读者介绍如何快速搭建 Apache Doris + Apache Hudi 的测试及演示环境,并对各功能操作进行演示,帮助读者快速入门。
Apache Doris + Apache Hudi 快速搭建指南|Lakehouse 使用手册(一)
|
4月前
|
数据采集 关系型数据库 MySQL
使用Apache Flink实现MySQL数据读取和写入的完整指南
使用Apache Flink实现MySQL数据读取和写入的完整指南
385 0
使用Apache Flink实现MySQL数据读取和写入的完整指南

推荐镜像

更多
下一篇
无影云桌面