从共建到引领,阿里云开源大数据产品矩阵再升级

简介: 一体化大数据智能峰会上,回顾了阿里巴巴开源大数据技术十三载发展历程,从使用回馈到共建引领,兼容并蓄,持续创新。以及对开源大数据产品矩阵再次升级的分享。

11月5日,在云栖大会一体化大数据智能峰会上,阿里巴巴开源委员会大数据领域副主席、阿里云开源大数据负责人王峰回顾了阿里巴巴开源大数据技术十三载发展历程,从使用回馈到共建引领,兼容并蓄,持续创新。


早在2009年,阿里巴巴就开始大规模使用Hadoop等开源大数据技术,在经历双11等内部核心业务锤炼之后,于2015年启动开源大数据技术实时化,并实现全面上云,以开源大数据平台E-MapReduce和实时计算Flink版来对外提供公共云服务。阿里巴巴也积极参与开源社区以及合作伙伴的开源共建,贡献了开源数据Shuffle服务Celeborn到Apache孵化器,推动Flink成为实时计算领域的事实标准,最终形成了开放、多元、现代、智能的开源大数据技术生态

D4540B27-D208-442f-AE89-C074ED9C5EA1.png

本次峰会,王峰为我们分享了开源大数据的几个技术热点趋势,分别是云原生、实时化、数据湖和智能化。阿里巴巴开源大数据技术已经进入了全面云原生的时代,依托全面云原生架构,为用户提供极致弹性伸缩,按需使用的服务。同时在实时计算技术领域持续创新,提出Flink SQL + Table Store的使用方式,实现端到端的数仓链路实时流动,提供全增量数据链路一致性体验。构建统一架构的云原生数据湖,架构从存算一体到存算分离,融合多元化计算模式,实现智能安全的数据湖管理。在此基础之上,持续优化“智能运维大脑”,推出如Flink作业自动调优,EMR Doctor智能运维诊断系统等,全面加深开源大数据平台的增值能力,帮助用户更高效地使用。


开源大数据产品矩阵再次升级,开源大数据平台E-MapReduce将技术引领优势,转化为云上产品服务能力,重磅发布E-MapReduce 2.0,面向未来构建下一代开源大数据基础设施,弹性优化能力提升3倍,伸缩规模达千台,3分钟即可创建100节点的数据湖集群。依托于EMR、OSS、DataWorks产品组合的数据湖,满分通过了信通院云原生数据湖评测,全面兼容HDFS,湖权限和生命周期管理能力升级。实时计算Flink增强了复杂事件处理功能,可应用于实时风控、实时营销场景,分钟级作业诊断,帮助用户资源效率提升30%。阿里云联合 Elastic 公司重磅发布云原生 Serverless Elasticsearch,为用户带来SaaS化产品体验,同时,使用成本下降53%。与Cloudera公司战略合作的数据混合云 Cloudera CDP公共云正式商用,为CDP用户带来统一的云上云下使用体验。


同时阿里巴巴开源大数据一直本着开放、创新、贡献的初心积极推动开源大数据技术的演进,截止到今年贡献10余个顶级开源项目,培养50余位顶级开源项目Committer、PMC,代码贡献量超过150万,开源文化氛围浓厚。构建了围绕数据集成Flink CDC、数据分析Flink SQL、机器学习Flink ML、规则引擎Flink CEP、动态表存储Flink Table Store的Apache Flink生态项目群,推动Flink茁壮地成长为Apache的头部项目之一。同时生长于阿里巴巴的 Celeborn 项目-大数据计算引擎通用Shuffle服务成功进入Apache孵化器,为开源大数据技术更添一份力量。

9AC25AC2-43D8-46ec-8501-0EE6DDF3D29E.png

开源大数据技术的“摩尔定律”提速

峰会上,由开放原子开源基金会、X-lab开放实验室和阿里巴巴开源委员会联合出品的《2022年开源大数据热力报告》重磅发布。

971E6174-8220-46bf-8022-F3F976D30ECC.png

开放原子开源基金会副秘书长刘京娟女士对报告进行了深度解读。报告基于公开数据研究最活跃的102个开源大数据项目,探寻出开源大数据技术发展背后的“摩尔定律”,每隔40个月,开源项目热力值就会翻一倍,技术完成一轮更新迭代。在过去8年里,发生了5次较大规模的技术热力跃迁,多元化、一体化、云原生成为当前开源大数据发展趋势的最显著特征。其中,阿里巴巴推动的Apache Flink在流处理领域热力值排名第一,DataX、Flink CDC、Apache Celeborn入围热力榜单。


《开源大数据热力报告2022》:https://developer.aliyun.com/ebook/7816

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
4天前
|
数据采集 分布式计算 监控
大数据技术人员的打怪升级之路
大数据技术人员的打怪升级之路
7 0
|
4天前
|
弹性计算 运维 监控
【阿里云弹性计算】从物理机到阿里云ECS:企业IT架构转型升级之路
【5月更文挑战第29天】随着云计算兴起,企业正转向阿里云ECS以应对传统物理机的挑战。本文详述了这一转型过程,包括现状评估、迁移计划制定、测试环境搭建、应用数据迁移及后期监控优化。转型升级可提升资源利用率,降低运维成本,加快业务响应,并增强数据安全。示例代码展示了使用阿里云Python SDK创建ECS实例的过程。
23 1
|
6天前
|
人工智能 监控 开发者
阿里云PAI发布DeepRec Extension,打造稳定高效的分布式训练,并宣布开源!
阿里云人工智能平台PAI正式发布自研的 DeepRec Extension(即 DeepRec 扩展),旨在以更低成本,更高效率进行稀疏模型的分布式训练。
|
7天前
|
存储 分布式计算 DataWorks
【阿里云云原生专栏】云原生下的数据湖建设:阿里云MaxCompute与DataWorks解决方案
【5月更文挑战第26天】在数字化时代,数据成为企业创新的关键。阿里云MaxCompute和DataWorks提供了一种构建高效、可扩展数据湖的解决方案。数据湖允许存储和分析大量多格式数据,具备高灵活性和扩展性。MaxCompute是PB级数据仓库服务,擅长结构化数据处理;DataWorks则是一站式大数据协同平台,支持数据集成、ETL和治理。通过DataWorks收集数据,MaxCompute存储和处理,企业可以实现高效的数据分析和挖掘,从而提升业务洞察和竞争力。
106 0
|
8天前
|
关系型数据库 分布式数据库 数据处理
【PolarDB 开源】PolarDB 在大数据分析中的应用:海量数据处理方案
【5月更文挑战第25天】PolarDB是解决大数据挑战的关键技术,以其高性能和可扩展性处理大规模数据。通过与数据采集和分析工具集成,构建高效数据生态系统。示例代码显示了PolarDB如何用于查询海量数据。优化策略包括数据分区、索引、压缩和分布式部署,广泛应用于电商、金融等领域,助力企业进行精准分析和决策。随着大数据技术进步,PolarDB将继续发挥关键作用,创造更多价值。
41 0
|
10天前
|
存储 弹性计算 大数据
【阿里云弹性计算】阿里云ECS在大数据处理中的应用:高效存储与计算实践
【5月更文挑战第23天】阿里云ECS在大数据处理中发挥关键作用,提供多样化实例规格适应不同需求,尤其大数据型实例适合离线计算。通过集成分布式文件系统如OSS,实现大规模存储,而本地存储优化提升I/O性能。弹性扩容和计算优化实例确保高效运行,案例显示使用ECS能提升处理速度并降低成本。结合阿里云服务,ECS构建起强大的数据处理生态,推动企业创新和数字化转型。
30 0
|
10天前
|
自然语言处理 监控 Cloud Native
对话阿里云云原生产品负责人李国强:推进可观测产品与OpenTelemetry开源生态全面融合
阿里云宣布多款可观测产品全面升级,其中,应用实时监控服务 ARMS 在业内率先推进了与 OpenTelemetry 开源生态的全面融合,极大丰富了可观测的数据类型及规模,大幅增强了 ARMS 核心能力。本次阿里云 ARMS 产品全面升级的背景是什么?为什么会产生围绕 OpenTelemetry 进行产品演进的核心策略?在云原生、大模型等新型应用架构类型层出不穷的今天,又将如何为企业解决新的挑战?阿里云云原生应用平台产品负责人李国强接受采访解答了这些疑问,点击本文走进全新升级的阿里云可观测产品。
41660 7
|
12天前
|
Java Serverless Apache
9 个开源项目、25 个课题可选丨欢迎报名阿里云云原生开源之夏
2024 开源之夏,阿里云云原生应用平台团队开放了包括 Apache Dubbo/Apache RocketMQ/Apache Seata/Higress/iLogtail /Nacos/Sentinel/Spring Could Alibaba / Serverless Devs 在内,涉及微服务、消息、可观测、Serverless 4 大技术领域的 9 个开源项目。
|
13天前
|
存储 弹性计算 Cloud Native
AutoMQ:如何基于阿里云计算与存储产品实现云原生架构升级
AutoMQ:如何基于阿里云计算与存储产品实现云原生架构升级
|
13天前
|
SQL 分布式计算 数据挖掘
阿里云MaxCompute携手华大基因打造精准医疗应用云平台,十万基因组计算成本降低至1000美金以内
华大基因是中国最领先的基因科技公司,华大基因为消除人类病痛、经济危机、国家灾难、濒危动物保护、缩小贫富差距等方面提供分子遗传层面的技术支持。让我们结合maxcompute的技术特点,看看如何助力华大基因。
831 9

热门文章

最新文章

相关产品

  • 云原生大数据计算服务 MaxCompute