带你读《2022年开源大数据热力报告》——热力趋势三:云原生大规模重构开源技术栈

简介: 带你读《2022年开源大数据热力报告》——热力趋势三:云原生大规模重构开源技术栈

发轫于云端的技术重构

过去几年,数据源和数据存储正逐步迁移到云端,更多元化的计算负载也运行到了云端,计算与存储分离已成为大数据平台的标准架构。越来越多的开发者在云端开发中,对开源大数据项目进行云原生改造适配。云原生作为技术创新的实验场,改变了大量开源大数据技术的走向。


2015年后出现的新项目,无一例外地在云原生方向进行了积极的技术布局。Pulsar、DolphinScheduler、JuiceFS、Celeborn、Arctic等诞生于云原生时代的开源项目如雨后春笋般破土成长。这些新项目在2022年的热力值占比已经达到51%,其中,「数据集成」、 「数据存储」、 「数据开发与管理」等领域都发生了非常大的项目更迭,新项目热力值占比已经超过了80%。从2020年开始, Spark、 Kafka、Flink等主流项目陆续正式支持 Kubernetes。云原生推动的开源技术栈大重构正在进行时。



image.png


「数据集成」率先完成重构

随着云端多样化数据收集需求的爆发,以及下游数据分析逻辑的变化,数据集成从“劳动密集型”ETL工具演进到灵活高效易用的“数据加工流水线”。传统

数据集成工具Flume、 Camel处于平稳维护状态, Sqoop已于2021年从Apache软件基金会退役。与云原生结合更紧密的Airbyte、Flink CDC、SeaTunnel等项目飞速发展。在热力趋势中可以看到,云原生数据集成在2018年超越了传统数据集成,从2019年开始,这一演进历程加速,热力值逐年翻倍。不少新孵化的项目热力值年均复合增长率超过100%,增长势头强劲。


image.png

image.png



相关文章
|
7月前
|
人工智能 Cloud Native 算法
拔俗云原生 AI 临床大数据平台:赋能医学科研的开发者实践
AI临床大数据科研平台依托阿里云、腾讯云,打通医疗数据孤岛,提供从数据治理到模型落地的全链路支持。通过联邦学习、弹性算力与安全合规技术,实现跨机构协作与高效训练,助力开发者提升科研效率,推动医学AI创新落地。(238字)
494 7
|
Cloud Native 安全 大数据
云原生与大数据
【8月更文挑战第27天】云原生与大数据
345 5
|
Kubernetes Cloud Native 开发者
alibaba-load-balancer-controller v1.2.0:开启云原生网关开源新篇章!敬请探索!
alibaba-load-balancer-controller v1.2.0:开启云原生网关开源新篇章!敬请探索!
386 61
|
Cloud Native 关系型数据库 分布式数据库
PolarDB开源:云原生数据库的新篇章
阿里云自研的云原生数据库PolarDB于2023年5月正式开源,采用“存储计算分离”架构,具备高性能、高可用及全面兼容性。其开源版本提供企业级数据库解决方案,支持MySQL、PostgreSQL和Oracle语法,适用于高并发OLTP、核心业务系统等场景。PolarDB通过开放治理与开发者工具构建完整生态,并展望更丰富的插件功能与AI集成,为中国云原生数据库技术发展贡献重要力量。
848 17
|
12月前
|
存储 Cloud Native 关系型数据库
PolarDB开源:云原生数据库的架构革命
本文围绕开源核心价值、社区运营实践和技术演进路线展开。首先解读存算分离架构的三大突破,包括基于RDMA的分布式存储、计算节点扩展及存储池扩容机制,并强调与MySQL的高兼容性。其次分享阿里巴巴开源治理模式,涵盖技术决策、版本发布和贡献者成长体系,同时展示企业应用案例。最后展望技术路线图,如3.0版本的多写多读架构、智能调优引擎等特性,以及开发者生态建设举措,推荐使用PolarDB-Operator实现高效部署。
539 4
|
数据可视化 大数据 定位技术
GIS:开源webgl大数据地图类库整理
GIS:开源webgl大数据地图类库整理
854 0
|
分布式计算 大数据 Serverless
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
在2024云栖大会开源大数据专场上,阿里云宣布推出实时计算Flink产品的新一代向量化流计算引擎Flash,该引擎100%兼容Apache Flink标准,性能提升5-10倍,助力企业降本增效。此外,EMR Serverless Spark产品启动商业化,提供全托管Serverless服务,性能提升300%,并支持弹性伸缩与按量付费。七猫免费小说也分享了其在云上数据仓库治理的成功实践。其次 Flink Forward Asia 2024 将于11月在上海举行,欢迎报名参加。
1034 6
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
|
编解码 弹性计算 大数据
软硬结合助力倚天云原生算力再进化,加速大数据、视频转码上云步伐
本文介绍了云原生算力的进化,重点讨论了倚天710 CPU在大数据和视频转码场景中的应用与优势。倚天710采用ARM架构,通过物理核设计和CIPU加速卡优化,显著提升了高负载下的性能稳定性,并在实际应用中帮助客户实现了20%-40%的性能提升和成本降低。此外,文章还探讨了操作系统、编译器等底层软件的优化,以及如何通过龙蜥社区和阿里云平台支持更多应用场景,助力企业实现高效迁移和性能优化。
|
人工智能 自然语言处理 关系型数据库
阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成
近日,阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成。
|
关系型数据库 分布式数据库 数据库
开源云原生数据库PolarDB PostgreSQL 15兼容版本正式发布
PolarDB进行了深度的内核优化,从而实现以更低的成本提供商业数据库的性能。