11月5日,在云栖大会一体化大数据智能峰会上,阿里巴巴开源委员会大数据领域副主席、阿里云开源大数据负责人王峰回顾了阿里巴巴开源大数据技术十三载发展历程,从使用回馈到共建引领,兼容并蓄,持续创新。
早在2009年,阿里巴巴就开始大规模使用Hadoop等开源大数据技术,在经历双11等内部核心业务锤炼之后,于2015年启动开源大数据技术实时化,并实现全面上云,以开源大数据平台E-MapReduce和实时计算Flink版来对外提供公共云服务。阿里巴巴也积极参与开源社区以及合作伙伴的开源共建,贡献了开源数据Shuffle服务Celeborn到Apache孵化器,推动Flink成为实时计算领域的事实标准,最终形成了开放、多元、现代、智能的开源大数据技术生态。
本次峰会,王峰为我们分享了开源大数据的几个技术热点趋势,分别是云原生、实时化、数据湖和智能化。阿里巴巴开源大数据技术已经进入了全面云原生的时代,依托全面云原生架构,为用户提供极致弹性伸缩,按需使用的服务。同时在实时计算技术领域持续创新,提出Flink SQL + Table Store的使用方式,实现端到端的数仓链路实时流动,提供全增量数据链路一致性体验。构建统一架构的云原生数据湖,架构从存算一体到存算分离,融合多元化计算模式,实现智能安全的数据湖管理。在此基础之上,持续优化“智能运维大脑”,推出如Flink作业自动调优,EMR Doctor智能运维诊断系统等,全面加深开源大数据平台的增值能力,帮助用户更高效地使用。
开源大数据产品矩阵再次升级,开源大数据平台E-MapReduce将技术引领优势,转化为云上产品服务能力,重磅发布E-MapReduce 2.0,面向未来构建下一代开源大数据基础设施,弹性优化能力提升3倍,伸缩规模达千台,3分钟即可创建100节点的数据湖集群。依托于EMR、OSS、DataWorks产品组合的数据湖,满分通过了信通院云原生数据湖评测,全面兼容HDFS,湖权限和生命周期管理能力升级。实时计算Flink增强了复杂事件处理功能,可应用于实时风控、实时营销场景,分钟级作业诊断,帮助用户资源效率提升30%。阿里云联合 Elastic 公司重磅发布云原生 Serverless Elasticsearch,为用户带来SaaS化产品体验,同时,使用成本下降53%。与Cloudera公司战略合作的数据混合云 Cloudera CDP公共云正式商用,为CDP用户带来统一的云上云下使用体验。
同时阿里巴巴开源大数据一直本着开放、创新、贡献的初心积极推动开源大数据技术的演进,截止到今年贡献10余个顶级开源项目,培养50余位顶级开源项目Committer、PMC,代码贡献量超过150万,开源文化氛围浓厚。构建了围绕数据集成Flink CDC、数据分析Flink SQL、机器学习Flink ML、规则引擎Flink CEP、动态表存储Flink Table Store的Apache Flink生态项目群,推动Flink茁壮地成长为Apache的头部项目之一。同时生长于阿里巴巴的 Celeborn 项目-大数据计算引擎通用Shuffle服务成功进入Apache孵化器,为开源大数据技术更添一份力量。
开源大数据技术的“摩尔定律”提速
峰会上,由开放原子开源基金会、X-lab开放实验室和阿里巴巴开源委员会联合出品的《2022年开源大数据热力报告》重磅发布。
开放原子开源基金会副秘书长刘京娟女士对报告进行了深度解读。报告基于公开数据研究最活跃的102个开源大数据项目,探寻出开源大数据技术发展背后的“摩尔定律”,每隔40个月,开源项目热力值就会翻一倍,技术完成一轮更新迭代。在过去8年里,发生了5次较大规模的技术热力跃迁,多元化、一体化、云原生成为当前开源大数据发展趋势的最显著特征。其中,阿里巴巴推动的Apache Flink在流处理领域热力值排名第一,DataX、Flink CDC、Apache Celeborn入围热力榜单。
《开源大数据热力报告2022》:https://developer.aliyun.com/ebook/7816