ApacheCon 2025中国开源年度报告:Apache Doris 国内第一

简介: 在 Apache 基金会管理的近 300 个顶级项目中,Doris 已经成为仅次于 Apache Airflow 的全球第二大影响力项目。

上周刚落下帷幕的 ApacheCon Asia 2025 中,一个数据让所有人都为之震撼:全球 Apache 基金会项目 OpenRank 排行榜中,Apache Doris 位居第二,在中国 Apache 项目中更是稳居第一

榜单.PNG

这个排名意味着什么?在 Apache 基金会管理的近 300 个顶级项目中,Doris 已经成为仅次于 Apache Airflow 的全球第二大影响力项目。

面对如此迅速的崛起,我们不禁要问:Doris 是如何在短短几年内实现这样的跃升? 而此项排名背后,又蕴含着怎样的意义?

一、中国开源力量的全面崛起

要理解 Doris 的跃升,我们必须把它放在一个更宏观的背景下—中国开源力量的全面崛起

中国开源力量的全面崛起.PNG

在 ApacheCon Asia 2025 的主论坛上,华东师范大学教授-王伟老师基于《中国开源年度报告》的数据分析,重点关注中国 Apache 开源社区的参与度、技术贡献和发展趋势,揭示了中国 Apache 开源社区在全球开源生态中的角色与挑战。

中国开源力量的全面崛起-2.PNG

《中国开源年度报告》基于 GitHub 过去十年的观察发现,全球泛开发者总量已突破 1 亿,其中开源开发者数量超过了 2200 万。而在这个庞大的开源生态中,中国正在扮演越来越重要的角色。

数据显示,中国开发者数量超 1000 万人,开源开发者总量约 198 万人,紧随美国、印度位居全球第三。

中国开源力量的全面崛起-3.PNG

但在 Apache 基金会各国开发者贡献度排行榜 Top 20 中,中国在贡献度、开发者总数以及贡献仓库数量等多个维度均排名第一,充分体现了中国开发者在 Apache 项目上的深度参与。

更重要的是,从近五年的趋势来看,中国开发者自 2021 年起贡献度超过美国,并在 2023 年达到峰值,持续保持全球领先地位。

中国开源力量的全面崛起-4.png

另外,报告中还特别强调了一个重要观察:“中国开发者更注重深度贡献,以美国约三分之一的开发者影响力,却达到了美国开源开发者贡献度总量的近 50%,并且仍在以 7.48%的增速快速发展。”

这说明什么?中国开发者不是在玩人海战术,而是在打质量牌。我们不仅要参与开源,更要深度参与;不仅要贡献代码,更要贡献核心价值。

二、OpenRank 下的 Doris 现象解析

OpenRank 作为一个系列算法,包含影响力和贡献度两个维度。构建方法与逻辑详见 OpenDigger 文档,该项目是王伟老师团队的一个开源生态数据分析的开源项目。

影响力:https://open-digger.cn/docs/user-docs/metrics/global-openrank

贡献度:https://open-digger.cn/docs/user-docs/metrics/community-openrank

OpenRank 下的 Doris 现象解析.png

OpenRank 作为 “开源评价的北极星指标”,提供了全域视角的影响力评估和社区视角的贡献度计算。

从这个角度来分析 Doris 的跃升,我们可以发现三个关键因素:

2.1 技术架构的前瞻性布局

在大数据领域,传统的技术栈往往需要多个组件协同工作,例如:Hadoop 负责存储、Spark 负责批处理、Storm 负责流处理、Elasticsearch 负责搜索分析。这种架构虽然功能完整,但复杂度极高,运维成本巨大。

Doris 的出现彻底改变了这个游戏规则。

 技术架构的前瞻性布局.png

它采用了 MPP(大规模并行处理)架构,提供了一体化的 OLAP 解决方案,以高效、简单和统一的特性著称,能够在亚秒级的时间内返回海量数据的查询结果。Doris 既能支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。

基于这些优势,Doris 非常适合用于报表分析、即席查询、统一数仓构建、数据湖联邦查询加速、GenAI 混合检索等场景。用户可以基于 Doris 构建大屏看板、用户行为分析、AB 实验平台、日志检索分析、用户画像分析、订单分析、数据科学、RAG 等应用。

用户不需要再维护一个庞大的技术栈,一个 Doris 就能解决大部分数据分析问题。

 技术架构的前瞻性布局-2.png

从《中国开源年度报告》的分析来看,大数据领域竞争十分激烈:全球排名 Top 20 中,有一半的项目属于大数据领域,包括 Apache Spark、Airflow、datafusion、beam 等。其中 Apache Doris,OpenRank 超过 1700,显著领先于后面的项目。

即便身处如此白热化的竞争之中,Doris 依然能够脱颖而出,很大程度上归功于其技术架构的前瞻性和实用性。

2.2 生态协同的战略定位

 技术架构的前瞻性布局-3.png

据报告显示,在中国 Apache 项目 OpenRank 排行榜 Top 20 中,有三个数据库相关项目(Doris、IoTDB、Paimon),体现出国产数据项目在社区影响力和技术成熟度上的持续突破。这已不再是偶然,而是整个生态协同发展的结果。

Doris 跃升的第二因素,得益于其在整个 Apache 生态中的战略定位:

  1. 与 Flink 的协同:Flink 负责实时计算,Doris 负责实时分析,形成完整的实时数据处理链路
  2. 与 SeaTunnel 的集成:SeaTunnel 是一个非常简单易用的超高性能分布式数据集成平台,支持海量数据的实时同步至 Doris
  3. 与 DolphinScheduler 的结合:DolphinScheduler 作为一个分布式易扩展的可视化 DAG 任务调度系统,能够协调和管理 Doris 数据查询、导入、ETL 等任务,确保数据流程的顺畅与自动化
  4. 与多个项目的连接:与 Kafka、Pulsar 等消息队列无缝集成,与 Paimon 各种数据源深度连接...

虽然 Doris 起步相对较晚,但凭借其独特的技术优势和生态定位,迅速在这个竞争激烈的领域中占据了一席之地。

2.3 开源运营的模式创新

在过去的 4 年期间,Apache Doris 的发展历程体现了开源项目运营模式的重要性。

开源运营的模式创新.png

报告显示,Doris 增长态势迅猛。在五年内,OpenRank 指标从 894.83 飙升至 近 4000,尤其在 2021 年后呈爆发式增长。这正是飞轮科技作为 Apache Doris 社区的重要贡献者,主导运营后的时间节点,它开创了一种全新的开源运营模式:

  1. 深度参与 Apache 治理:深度参与到基金会的治理体系中,积极推动项目的标准化和国际化;
  2. 社区优先商业跟进:先把开源社区做好,让更多开发者参与进来,形成良性循环,然后再考虑商业化路径;
  3. 全球视野本土实践:既要符合 Apache 基金会的国际标准和开源文化,又要解决国内外企业的实际业务问题。

开源运营的模式创新-2.png

飞轮科技开创性地将深度参与 Apache 治理、社区优先商业跟进以及全球视野本土实践相结合,这一运营模式的创新,是 Apache Doris 在短短几年内实现爆发式增长的关键驱动力。

三、2025 COC 大会下的 Doris 真实表现

2025 COC 大会下的 Doris 真实表现.jpeg

回看 ApacheCon Asia 2025 上,一个议题格外引人注目:《Apache Doris 在 AI 领域的探索与实践》

作为一款热门的 OLAP 实时分析数据库,Apache Doris 在当前 AI 浪潮快速变革的时代背景下,已构建或正在规划更多与 AI 相关的功能及周边组件,如向量检索、MCP、RAG 等功能模块。

2025 COC 大会下的 Doris 真实表现-2.jpeg

当大家还在争论关系型数据库与 NoSQL 的优劣时,《Apache Doris 混合检索技术解析》的议题分享告诉所有人:Doris 已经在将传统全文检索(基于关键词的词典搜索)与向量检索(基于语义的搜索)相结合,提供更加精准的搜索结果。混合检索能力特别适合需要同时兼顾关键词匹配和语义理解的复杂搜索场景,如电商、内容推荐和知识库搜索。

好比一个电商平台需要同时处理“红色连衣裙”这样的精确关键词搜索,和“适合约会穿的优雅服装”这样的语义搜索。传统方案需要两套系统,而 Doris 只需要一套。

2025 COC 大会下的 Doris 真实表现-3.jpeg

在《高性能、低成本、开源可观测性,由 Apache Doris 驱动》议题中,则体现了 Apache Doris 构建的高性能、低成本开源可观测性方案,其成本效率较 ElasticSearch 提升 5 倍,并兼容 OpenTelemetry 等开源标准。

更重要的是,Doris 的生态建设不是孤军奋战,而是产业协同。

菜鸟、中国电信翼支付、小米、中国联通等头部企业的深度参与,形成了产业级的正向循环。

当一个开源项目获得了产业级应用的验证,它的成功就不再依赖于技术本身,而是建立在商业价值的坚实基础之上。让我们看看 ApacheCon Asia 2025 分享中的头部企业是如何使用 Doris 的:

2025 COC 大会下的 Doris 真实表现-4.png

  1. 《Apache Doris 在菜鸟大规模业务场景中的实施实践》:Apache Doris 在菜鸟已经有 25+集群,遍布 3 个地域(已具备全球化多地域部署能力),日常上万核的规模,整个迁移过程,未发生一起线上故障。从早期的验证探索到逐步在核心业务场景中落地实施,并经历了双十一促销高峰的考验。目前,Doris 是菜鸟网络 OLAP 的首选方案。
  2. 《基于 Apache Doris 在中国电信翼支付的数据安全分析实践〉:中国电信翼支付基于 Doris 构建数据安全分析平台,实现了统一日志分析与审计、用户安全画像与恶意行为检测。在金融级安全要求下,Doris 的可靠性和性能,为整个行业树立了标杆。
  3. 《小米基于 Paimon 的 Apache Doris 优化与实践》:小米基于 Paimon 的 Doris 优化实践,实现了查询性能 5 倍提升。这种深度的技术融合,展现了 Doris 架构的开放性和扩展性。
  4. 《Apache Doris 在中国联通数字智能公司可信数据空间中的实践》:中国联通基于 Apache Doris 构建可信数据空间中的数据沙箱底层存储,实现数据资源的管控,并确保数据“可用而不可见”。并结合 Doris 联邦查询能力在数据空间内数据处理和分析中的应用,通过统一存储为指标和标签创建高效的空间服务。

这些真实的案例告诉我们一个重要趋势:Doris 正在从一个优秀的 Apache 顶级项目,演变成一个企业级的核心底座。

四、结语

ApacheCon Asia 2025 的成功举办,《中国开源年度报告》的权威发布,Apache Doris 的强势登顶,这些标志性事件汇聚在一起,构成了中国开源发展史上的一个重要节点。

Apache Doris 的跃升,不是一个孤立的技术现象,而是中国开源力量崛起的缩影:从开源的技术积累,到飞轮科技的运营创新;从 Apache 基金会的国际平台,到中国市场的实际需求;从开源社区的协作文化,到商业化的价值实现。

这正是属于我们这代人的开源使命,也是“Apache Doris 第一”给我们的最大启示。

目录
相关文章
|
4月前
|
消息中间件 OLAP Kafka
Apache Doris 实时更新技术揭秘:为何在 OLAP 领域表现卓越?
Apache Doris 为何在 OLAP 领域表现卓越?凭借其主键模型、数据延迟、查询性能、并发处理、易用性等多方面特性的表现,在分析领域展现了独特的实时更新能力。
430 9
|
5月前
|
JSON 关系型数据库 Apache
十亿 JSON 秒级响应:Apache Doris vs ClickHouse,Elasticsearch,PostgreSQL
JSONBench 是一个为 JSON 数据而生的数据分析 Benchmark,在默认设置下,Doris 的性能表现是 Elasticsearch 的 2 倍,是 PostgreSQL 的 80 倍。调优后,Doris 查询整体耗时降低了 74%,对比原榜单第一的 ClickHouse 产品实现了 39% 的领先优势。本文详细描述了调优思路与 Doris 调优前后的性能表现,欢迎阅读了解~
777 0
十亿 JSON 秒级响应:Apache Doris vs ClickHouse,Elasticsearch,PostgreSQL
|
3月前
|
存储 自然语言处理 分布式计算
Apache Doris 3.1 正式发布:半结构化分析全面升级,湖仓一体能力再跃新高
Apache Doris 3.1 正式发布!全面升级半结构化分析,支持 VARIANT 稀疏列与模板化 Schema,提升湖仓一体能力,增强 Iceberg/Paimon 集成,优化存储引擎与查询性能,助力高效数据分析。
540 4
Apache Doris 3.1 正式发布:半结构化分析全面升级,湖仓一体能力再跃新高
|
4月前
|
存储 分布式计算 Apache
湖仓一体:小米集团基于 Apache Doris + Apache Paimon 实现 6 倍性能飞跃
小米通过将 Apache Doris(数据库)与 Apache Paimon(数据湖)深度融合,不仅解决了数据湖分析的性能瓶颈,更实现了 “1+1>2” 的协同效应。在这些实践下,小米在湖仓数据分析场景下获得了可观的业务收益。
846 9
湖仓一体:小米集团基于 Apache Doris + Apache Paimon 实现 6 倍性能飞跃
|
3月前
|
SQL 人工智能 数据挖掘
Apache Doris 4.0 AI 能力揭秘(二):为企业级应用而生的 AI 函数设计与实践
Apache Doris 4.0 原生集成 LLM 函数,将大语言模型能力深度融入 SQL 引擎,实现文本处理智能化与数据分析一体化。通过十大函数,支持智能客服、内容分析、金融风控等场景,提升实时决策效率。采用资源池化管理,保障数据一致性,降低传输开销,毫秒级完成 AI 分析。结合缓存复用、并行执行与权限控制,兼顾性能、成本与安全,推动数据库向 AI 原生演进。
311 0
Apache Doris 4.0 AI 能力揭秘(二):为企业级应用而生的 AI 函数设计与实践
|
4月前
|
人工智能 运维 监控
智能运维与数据治理:基于 Apache Doris 的 Data Agent 解决方案
本文基于 Apache Doris 数据运维治理 Agent 展开讨论,如何让 AI 成为 Doris 数据运维工程师和数据治理专家的智能助手,并在某些场景下实现对人工操作的全面替代。这种变革不仅仅是技术层面的进步,更是数据运维治理思维方式的根本性转变:从“被动响应”到“主动预防”,从“人工判断”到“智能决策”,从“孤立处理”到“协同治理”。
690 11
智能运维与数据治理:基于 Apache Doris 的 Data Agent 解决方案
|
4月前
|
SQL 存储 运维
Apache Doris 在菜鸟的大规模湖仓业务场景落地实践
本文介绍了 Apache Doris 在菜鸟的大规模落地的实践经验,菜鸟为什么选择 Doris,以及 Doris 如何在菜鸟从 0 开始,一步步的验证、落地,到如今上万核的规模,服务于各个业务线,Doris 已然成为菜鸟 OLAP 数据分析的最优选型。
315 2
Apache Doris 在菜鸟的大规模湖仓业务场景落地实践
|
4月前
|
SQL 存储 JSON
Apache Doris 2.1.10 版本正式发布
亲爱的社区小伙伴们,Apache Doris 2.1.10 版本已正式发布。2.1.10 版本对湖仓一体、半结构化数据类型、查询优化器、执行引擎、存储管理进行了若干改进优化。欢迎大家下载使用。
248 5
|
6月前
|
人工智能 监控 数据挖掘
6/14 上海,Apache Doris x 阿里云 SelectDB AI 主题线下 Meetup 正式开启报名!
6 月 14 日,由 Apache Doris 社区、飞轮科技、阿里云联合发起的湖仓数智融合、AI 洞见未来:Apache Doris x 阿里云 SelectDB 联合 Meetup 将在上海·汇付天下总部大楼正式开启,邀您一同探索 AI 与数据分析的融合实践!
415 76
|
4月前
|
人工智能 自然语言处理 数据挖掘
Apache Doris 4.0 AI 能力揭秘(一):AI 函数之 LLM 函数介绍
在即将发布的 Apache Doris 4.0 版本中,我们正式引入了一系列 LLM 函数,将前沿的 AI 能力与日常的数据分析相结合,无论是精准提取文本信息,还是对评论进行情感分类,亦或生成精炼的文本摘要,皆可在数据库内部无缝完成。
321 0
Apache Doris 4.0 AI 能力揭秘(一):AI 函数之 LLM 函数介绍

热门文章

最新文章

推荐镜像

更多