在开源大数据技术飞速发展的十数年,我们见证了多元化技术的兴起和变迁。如何从海量数据中,通过数据处理和可视化的手段,对开源大数据技术的过去、现在和未来,做出深刻洞察?如何为开发者在开源大数据技术领域的学习、选型和技术研发提供有益参考?带着这样的思考,开放原子开源基金会、X-Lab 开放实验室、阿里巴巴开源委员会共同发起了「2022 开源大数据热力报告」项目。
项目简介
「2022 开源大数据热力报告」收集相关公开数据进行关联分析,通过 Star、Issue、open PR 等核心指标绘制基于大数据技术栈的热力地图,研究开源大数据进入新阶段后的技术趋势,以及开源社区的运作模式对技术走向的助推作用。项目研究遵循如下 7 个阶段:公开数据初筛->项目技术分类->专家审议->入围公示 & 征集修正->热力值计算和关联分析->数据洞察和课题研究->报告审议。
数据来源
2015 年 1 月至 2022 年 9 月的 Github 和 Jira 公开数据,包括项目 id、Star、Issue、open PR,review comment,merge PR 等。
数据初筛
项目初筛 Github 上 Topic Tag 满足如下条件且开源的大数据项目:
Topic Tag:big-data、etl、data-ingestion、data-collection、data-pipeline、data-analysis、data-analytics、analytics、data visualization、business-intelligence、data science、data-engineering
技术分类
根据大数据现代技术栈框架,对初筛项目进行技术分类。技术分类包括:数据集成、流处理、数据存储、数据查询和分析、数据开发、数据调度和编排、数据管理/安全/中间件、数据可视化。
说明:
数据查询和分析分类聚焦大数据分析类型项目,不包括 OLTP 数据库、OLTP 能力为主的 HTAP 数据库和 NoSQL 数据库数据可视化分类中需具备数据源链接和处理能力,不包括可视化框架工具项目数据管理/安全/中间件分类中,项目较少且功能互相交叠,因此归为一类本次报告聚焦大数据领域,不包含大数据AI融合型项目
项目公示
现将本次入围项目(共计 92 个)予以公布,公示期为 2022 年 10 月 10 日至 10 月 16 日。
技术分类 | 项目名称 |
数据集成 | airbytehq/airbyte alibaba/DataX apache/camel apache/flume apache/incubator-seatunnel apache/inlong apache/sqoop dbt-labs/dbt-core debezium/debeziumver verica/flink-cdc-connectors |
流处理 | apache/beam apache/flink apache/incubator-heron apache/incubator-streamp ark apache/kafka apache/pulsar apache/samza apache/storm |
数据查询和分析 | apache/arrow-datafusion apache/calcite apache/cassandra apache/doris apache/drill apache/druid apache/hawq apache/hbase apache/hive apache/impala apache/incubator-kyuubi apache/kylin apache/lucene apache/phoenix apache/pig apache/pinot apache/solr apache/spark apache/tez ClickHouse/ClickHouse duckdb/duckdb elastic/elasticsearch eventql/eventql greenplum-db/gpdb opensearch-project/OpenSearch prestodb/presto StarRocks/starrocks trinodb/trino uber/aresdb |
数据存储 | apache/avro apache/bookkeeper apache/carbondata apache/hadoop-hdfs apache/hudi apache/iceberg apache/incubator-pegasus apache/kudu apache/ozone apache/parquet-format delta-io/delta hazelcast/hazelcast juicedata/juicefs |
数据管理/安全/中间件 | apache/ambariapache/arrowapache/atlasapache/bigtopapache/hadoopapache/knoxapache/rangercube-js/cube.jsdatahub-project/datahub |
数据开发 | apache/incubator-devlake apache/zeppelin jupyter/notebook pachyderm/pachyderm |
数据可视化 | apache/superset dataease/dataease edp963/davinci elastic/kibana getredash/redash grafana/grafana keplergl/kepler.gl metabase/metabase shzlw/poli |
数据调度和编排 | Alluxio/alluxio apache/airflow apache/dolphinscheduler apache/incubator-linkis apache/nifi apache/oozie apache/zookeeper dagster-io/dagster kestra-io/kestra PrefectHQ/prefect |
其他项目补充征集
如果你也是开源项目的爱好者,如果你熟知的项目不在上述列表,但是满足以下标准,可在公示期内扫描下方二维码参与项目提报。
参与标准:
1、开源大数据项目,有明确的开源协议、完善的文档;半年内发布过新版本
2、Github 上带有如下 Topic Tag 之一:big-data、etl、data-ingestion、data-collection、data-pipeline、data-analysis、data-analytics、analytics、data visualization、business-intelligence、data science、data-engineering
参与方式:
发布预告
「 开源大数据热力报告 2022」将于 2022 年 11 月云栖大会现场正式发布。
特别致谢
联合发起方:开放原子开源基金会、X-Lab 开放实验室、阿里巴巴开源战略合作:开源中国、 InfoQ、阿里云开发者社区合作媒体:CSDN、Datafun、SegmentFault