CommunityOverCode Asia 精彩回顾|阿里云开源大数据 EMR 技术实践分享

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
EMR Serverless Spark 免费试用,1000 CU*H 有效期3个月
简介: 阿里云开源大数据 EMR 在 CommunityOverCode Asia 的精彩分享。

2023 年 8 月 18 日,Apache 软件基金会的官方全球系列大会 CommunityOverCode Asia(原 ApacheCon Asia)首次中国线下峰会在北京丽亭华苑酒店开幕。作为久负盛名的开源盛宴和开源界最具期待的大会之一,CommunityOverCode Asia 2023 聚集了来自各地的参与者,让大家都可以近距离享受这场 Apache 技术盛宴。

d186753fab5e41a0d85916050ef1254f.jpeg


阿里云研究员、开源大数据平台负责人王峰,分享了”阿里云大数据从拥抱开源走向引领开源”不断创新的历程。阿里巴巴自 2009 年开始采用 Apache Hadoop 技术进行大数据分析,2010 年第一次将 Apache HBase 技术在商品搜索中大规模投产,2016 年将处于萌芽状态的 Apache Flink 在双 11 实时推荐场景落地,并在同年阿里云上发布支持 Apache Hadoop/Hive/Spark/Kafka 等主流开源大数据技术的 E-MapReduce 云产品。在最近几年,阿里云开源大数据 Flink 团队作为 Apache Flink 最主要的贡献者推动 Flink 成为全球流计算事实标准,并向 ASF 捐赠了 Apache Celeborn 和 Apache Paimon 开源大数据项目,阿里云大数据一步步从拥抱、贡献开源走向开源社区的引领者。


阿里云 EMR 自 2016 年在公有云上线之后,已经服务了数千家中小企业,支持他们在云上更好地使用开源大数据。目前 EMR 也经过了技术升级, 从经典的 Hadoop 架构升级到了数据湖存算分离的架构。与此同时我们也保持了整个开源大数据平台的开放性,跟国内外知名的开源大数据厂商比如 Elasticsearch、Cloudera、StarRocks 等建立了密切的合作伙伴关系,并且联合推出了开源大数据的产品,在云上共建开源大数据生态。


以 Apache Celeborn 项目为例,2022 年 10 月份阿里巴巴向 Apache 孵化器捐赠了 Celeborn 项目(也就是原来的 EMR Remote Shuffle Service 项目 ),这是在阿里云上诞生的第一个 Apache 孵化项目。Apache Celeborn (Incubating) 的初始作者、阿里云 EMR Spark 引擎负责人周克勇也在会上对 Apache Celeborn 做详细介绍。从传统 Shuffle 的缺陷到 Celeborn 的诞生,到吸引了来自小米、Shopee、网易等开发者共建,Celeborn 已经被知名企业使用。未来也希望更多感兴趣的开发者参与共建和使用。



Apache Paimon 和 Celeborn 类似,也是阿里云EMR团队同学在主导孵化(原来的 Flink Table Store 项目),它是一个从准实时出发的流式数据湖,专门为 CDC 处理流计算而设计。Apache Paimon 的创新之处在于采用了湖存储+ LSM 的文件组织架构,基于分布式文件系统管理元数据。阿里云的高级技术专家李劲松在会上分享了“Apache Paimon 实时数据湖 Streaming LakeHouse 的存储底座”,详细讲解了从流计算到数据湖,到如何基于 Paimon 实现实时入湖,如何实现全异步、动态、Merge Engine 及跨分区更新的。同时,Paimon 在数据打宽、消息队列替代、离线表替代等方面也在不断和丰富和扩展。基于 Paimon的Streaming LakeHouse 生态已经逐渐成熟,数据湖实时化将是未来发展的重要趋势。



众所周知,Apache DolphinScheduler 是业界领先的、具有良好的用户体验和可靠性的开源 DataOps 平台,社区活跃度持续在同类项目处于领先地位。


阿里云研发工程师程鑫在分享了“Apache DolphinScheduler 与云对象存储的对接与整合",Apache DolphinScheduler 以其简单易用、丰富的使用场景、高可靠及高扩展等深受开发者喜欢。对象存储具有海量、安全、低成本、高可靠等优势,非常适合作为云上大数据分析的存储方案, Apache DolphinScheduler 与云对象存储进行对接与整合,可以让用户在云原生场景下更加方便地在工作流中进行云上大数据分析。



同时,阿里云研发工程师高楚枫也分享了 Apache DolphinScheduler 开源的指标体系。对应 Dolphin 实际代码示例介绍了埋点工具 Micrometer 的基本知识和使用方法,结合 Dolphin 的整体架构、基于常见的两类场景(Master状态异常、Worker 状态异常)对具体的核心业务/系统指标进行了详细的讲解,并在最后介绍了社区在指标体系这块的未来规划。



阿里云 EMR 团队基于 Apache DolpinScheduler 实现了服务化 EMR Workflow,免部署/免运维,让客户以最低的成本在 EMR 平台上进行数据开发和调度。有感兴趣的朋友可以交流与测试。


以上是阿里云 EMR 在 CommunityOverCode Asia 的技术实践分享。阿里云 EMR 团队将继续沿着兼容开源、贡献开源以及超越开源道路前进,为云上客户提供最佳的开源大数据解决方案。




欢迎对 EMR 感兴趣的朋友加入 EMR 钉钉交流群,一起交流和学习。

image.png

目录
相关文章
|
4月前
|
存储 数据采集 搜索推荐
Java 大视界 -- Java 大数据在智慧文旅旅游景区游客情感分析与服务改进中的应用实践(226)
本篇文章探讨了 Java 大数据在智慧文旅景区中的创新应用,重点分析了如何通过数据采集、情感分析与可视化等技术,挖掘游客情感需求,进而优化景区服务。文章结合实际案例,展示了 Java 在数据处理与智能推荐等方面的强大能力,为文旅行业的智慧化升级提供了可行路径。
Java 大视界 -- Java 大数据在智慧文旅旅游景区游客情感分析与服务改进中的应用实践(226)
|
4月前
|
存储 SQL 分布式计算
大数据之路:阿里巴巴大数据实践——元数据与计算管理
本内容系统讲解了大数据体系中的元数据管理与计算优化。元数据部分涵盖技术、业务与管理元数据的分类及平台工具,并介绍血缘捕获、智能推荐与冷热分级等技术创新。元数据应用于数据标签、门户管理与建模分析。计算管理方面,深入探讨资源调度失衡、数据倾斜、小文件及长尾任务等问题,提出HBO与CBO优化策略及任务治理方案,全面提升资源利用率与任务执行效率。
|
2月前
|
人工智能 Cloud Native 算法
拔俗云原生 AI 临床大数据平台:赋能医学科研的开发者实践
AI临床大数据科研平台依托阿里云、腾讯云,打通医疗数据孤岛,提供从数据治理到模型落地的全链路支持。通过联邦学习、弹性算力与安全合规技术,实现跨机构协作与高效训练,助力开发者提升科研效率,推动医学AI创新落地。(238字)
|
3月前
|
人工智能 分布式计算 DataWorks
阿里云大数据AI产品月刊-2025年8月
阿里云大数据& AI 产品技术月刊【2025年 8 月】,涵盖 8 月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
334 2
|
3月前
|
存储 分布式计算 资源调度
【赵渝强老师】阿里云大数据MaxCompute的体系架构
阿里云MaxCompute是快速、全托管的EB级数据仓库解决方案,适用于离线计算场景。它由计算与存储层、逻辑层、接入层和客户端四部分组成,支持多种计算任务的统一调度与管理。
320 1
|
DataWorks 数据挖掘 Serverless
阿里云EMR Serverless StarRocks 内容合集
阿里云 EMR StarRocks 提供存算分离架构,支持实时湖仓分析,适用于多种 OLAP 场景。结合 Paimon 与 Flink,助力企业高效处理海量数据,广泛应用于游戏、教育、生活服务等领域,显著提升数据分析效率与业务响应速度。
296 0
|
4月前
|
存储 监控 大数据
大数据之路:阿里巴巴大数据实践——事实表设计
事实表是数据仓库核心,用于记录可度量的业务事件,支持高性能查询与低成本存储。主要包含事务事实表(记录原子事件)、周期快照表(捕获状态)和累积快照表(追踪流程)。设计需遵循粒度统一、事实可加性、一致性等原则,提升扩展性与分析效率。
|
3月前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
282 14
|
4月前
|
机器学习/深度学习 运维 监控
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
176 0