带你读《2022年开源大数据热力报告》——热力趋势三：云原生大规模重构开源技术栈

2023-05-24 470

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 带你读《2022年开源大数据热力报告》——热力趋势三：云原生大规模重构开源技术栈

发轫于云端的技术重构

过去几年，数据源和数据存储正逐步迁移到云端，更多元化的计算负载也运行到了云端，计算与存储分离已成为大数据平台的标准架构。越来越多的开发者在云端开发中，对开源大数据项目进行云原生改造适配。云原生作为技术创新的实验场，改变了大量开源大数据技术的走向。

2015年后出现的新项目，无一例外地在云原生方向进行了积极的技术布局。Pulsar、DolphinScheduler、JuiceFS、Celeborn、Arctic等诞生于云原生时代的开源项目如雨后春笋般破土成长。这些新项目在2022年的热力值占比已经达到51%，其中，「数据集成」、「数据存储」、「数据开发与管理」等领域都发生了非常大的项目更迭，新项目热力值占比已经超过了80%。从2020年开始， Spark、 Kafka、Flink等主流项目陆续正式支持 Kubernetes。云原生推动的开源技术栈大重构正在进行时。

「数据集成」率先完成重构

随着云端多样化数据收集需求的爆发，以及下游数据分析逻辑的变化，数据集成从“劳动密集型”ETL工具演进到灵活高效易用的“数据加工流水线”。传统

数据集成工具Flume、 Camel处于平稳维护状态， Sqoop已于2021年从Apache软件基金会退役。与云原生结合更紧密的Airbyte、Flink CDC、SeaTunnel等项目飞速发展。在热力趋势中可以看到，云原生数据集成在2018年超越了传统数据集成，从2019年开始，这一演进历程加速，热力值逐年翻倍。不少新孵化的项目热力值年均复合增长率超过100%，增长势头强劲。

带你读《2022年开源大数据热力报告》——热力趋势三：云原生大规模重构开源技术栈

发轫于云端的技术重构

「数据集成」率先完成重构

开源大数据平台 E-MapReduce

热门文章

最新文章

相关课程

相关电子书