CommunityOverCode Asia 精彩回顾|阿里云开源大数据 EMR 技术实践分享

简介: 阿里云开源大数据 EMR 在 CommunityOverCode Asia 的精彩分享。

2023 年 8 月 18 日,Apache 软件基金会的官方全球系列大会 CommunityOverCode Asia(原 ApacheCon Asia)首次中国线下峰会在北京丽亭华苑酒店开幕。作为久负盛名的开源盛宴和开源界最具期待的大会之一,CommunityOverCode Asia 2023 聚集了来自各地的参与者,让大家都可以近距离享受这场 Apache 技术盛宴。

d186753fab5e41a0d85916050ef1254f.jpeg


阿里云研究员、开源大数据平台负责人王峰,分享了”阿里云大数据从拥抱开源走向引领开源”不断创新的历程。阿里巴巴自 2009 年开始采用 Apache Hadoop 技术进行大数据分析,2010 年第一次将 Apache HBase 技术在商品搜索中大规模投产,2016 年将处于萌芽状态的 Apache Flink 在双 11 实时推荐场景落地,并在同年阿里云上发布支持 Apache Hadoop/Hive/Spark/Kafka 等主流开源大数据技术的 E-MapReduce 云产品。在最近几年,阿里云开源大数据 Flink 团队作为 Apache Flink 最主要的贡献者推动 Flink 成为全球流计算事实标准,并向 ASF 捐赠了 Apache Celeborn 和 Apache Paimon 开源大数据项目,阿里云大数据一步步从拥抱、贡献开源走向开源社区的引领者。


阿里云 EMR 自 2016 年在公有云上线之后,已经服务了数千家中小企业,支持他们在云上更好地使用开源大数据。目前 EMR 也经过了技术升级, 从经典的 Hadoop 架构升级到了数据湖存算分离的架构。与此同时我们也保持了整个开源大数据平台的开放性,跟国内外知名的开源大数据厂商比如 Elasticsearch、Cloudera、StarRocks 等建立了密切的合作伙伴关系,并且联合推出了开源大数据的产品,在云上共建开源大数据生态。


以 Apache Celeborn 项目为例,2022 年 10 月份阿里巴巴向 Apache 孵化器捐赠了 Celeborn 项目(也就是原来的 EMR Remote Shuffle Service 项目 ),这是在阿里云上诞生的第一个 Apache 孵化项目。Apache Celeborn (Incubating) 的初始作者、阿里云 EMR Spark 引擎负责人周克勇也在会上对 Apache Celeborn 做详细介绍。从传统 Shuffle 的缺陷到 Celeborn 的诞生,到吸引了来自小米、Shopee、网易等开发者共建,Celeborn 已经被知名企业使用。未来也希望更多感兴趣的开发者参与共建和使用。



Apache Paimon 和 Celeborn 类似,也是阿里云EMR团队同学在主导孵化(原来的 Flink Table Store 项目),它是一个从准实时出发的流式数据湖,专门为 CDC 处理流计算而设计。Apache Paimon 的创新之处在于采用了湖存储+ LSM 的文件组织架构,基于分布式文件系统管理元数据。阿里云的高级技术专家李劲松在会上分享了“Apache Paimon 实时数据湖 Streaming LakeHouse 的存储底座”,详细讲解了从流计算到数据湖,到如何基于 Paimon 实现实时入湖,如何实现全异步、动态、Merge Engine 及跨分区更新的。同时,Paimon 在数据打宽、消息队列替代、离线表替代等方面也在不断和丰富和扩展。基于 Paimon的Streaming LakeHouse 生态已经逐渐成熟,数据湖实时化将是未来发展的重要趋势。



众所周知,Apache DolphinScheduler 是业界领先的、具有良好的用户体验和可靠性的开源 DataOps 平台,社区活跃度持续在同类项目处于领先地位。


阿里云研发工程师程鑫在分享了“Apache DolphinScheduler 与云对象存储的对接与整合",Apache DolphinScheduler 以其简单易用、丰富的使用场景、高可靠及高扩展等深受开发者喜欢。对象存储具有海量、安全、低成本、高可靠等优势,非常适合作为云上大数据分析的存储方案, Apache DolphinScheduler 与云对象存储进行对接与整合,可以让用户在云原生场景下更加方便地在工作流中进行云上大数据分析。



同时,阿里云研发工程师高楚枫也分享了 Apache DolphinScheduler 开源的指标体系。对应 Dolphin 实际代码示例介绍了埋点工具 Micrometer 的基本知识和使用方法,结合 Dolphin 的整体架构、基于常见的两类场景(Master状态异常、Worker 状态异常)对具体的核心业务/系统指标进行了详细的讲解,并在最后介绍了社区在指标体系这块的未来规划。



阿里云 EMR 团队基于 Apache DolpinScheduler 实现了服务化 EMR Workflow,免部署/免运维,让客户以最低的成本在 EMR 平台上进行数据开发和调度。有感兴趣的朋友可以交流与测试。


以上是阿里云 EMR 在 CommunityOverCode Asia 的技术实践分享。阿里云 EMR 团队将继续沿着兼容开源、贡献开源以及超越开源道路前进,为云上客户提供最佳的开源大数据解决方案。




欢迎对 EMR 感兴趣的朋友加入 EMR 钉钉交流群,一起交流和学习。

image.png

目录
相关文章
|
DataWorks 数据挖掘 Serverless
阿里云EMR Serverless StarRocks 内容合集
阿里云 EMR StarRocks 提供存算分离架构,支持实时湖仓分析,适用于多种 OLAP 场景。结合 Paimon 与 Flink,助力企业高效处理海量数据,广泛应用于游戏、教育、生活服务等领域,显著提升数据分析效率与业务响应速度。
552 0
|
存储 分布式计算 OLAP
百观科技基于阿里云 EMR 的数据湖实践分享
百观科技为应对海量复杂数据处理的算力与成本挑战,基于阿里云 EMR 构建数据湖。EMR 依托高可用的 OSS 存储、开箱即用的 Hadoop/Spark/Iceberg 等开源技术生态及弹性调度,实现数据接入、清洗、聚合与分析全流程。通过 DLF 与 Iceberg 的优化、阶梯式弹性调度(资源利用率提升至70%)及倚天 ARM 机型搭配 EMR Trino 方案,兼顾性能与成本,支撑数据分析需求,降低算力成本。
821 59
|
11月前
|
人工智能 分布式计算 DataWorks
一体系数据平台的进化:基于阿里云 EMR Serverless Spark 的持续演进
本文介绍了一体系汽配供应链平台如何借助阿里云EMR Serverless Spark实现从传统Hadoop平台向云原生架构的迁移。通过融合高质量零部件供应与创新互联网科技,一体系利用EMR Serverless Spark和DataWorks构建高效数据分析体系,解决大规模数据处理瓶颈。方案涵盖实时数据集成、Lakehouse搭建、数仓分层设计及BI/ML应用支持,显著提升数据处理性能与业务响应速度,降低运维成本,为数字化转型奠定基础。最终实现研发效率提升、运维压力减轻,并推动AI技术深度整合,迈向智能化云原生数据平台。
392 4
|
存储 分布式计算 物联网
美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台
美的楼宇科技基于阿里云 EMR Serverless Spark 建设 IoT 数据平台,实现了数据与 AI 技术的有效融合,解决了美的楼宇科技设备数据量庞大且持续增长、数据半结构化、数据价值缺乏深度挖掘的痛点问题。并结合 EMR Serverless StarRocks 搭建了 Lakehouse 平台,最终实现不同场景下整体性能提升50%以上,同时综合成本下降30%。
1073 58
|
SQL 存储 缓存
降本60% ,阿里云 EMR StarRocks 全新发布存算分离版本
阿里云 EMR Serverless StarRocks 现已推出全新存算分离版本,该版本不仅基于开源 StarRocks 进行了全面优化,实现了存储与计算解耦架构,还在性能、弹性伸缩以及多计算组隔离能力方面取得了显著进展。
1547 62
|
机器学习/深度学习 分布式计算 大数据
阿里云 EMR Serverless Spark 在微财机器学习场景下的应用
面对机器学习场景下的训练瓶颈,微财选择基于阿里云 EMR Serverless Spark 建立数据平台。通过 EMR Serverless Spark,微财突破了单机训练使用的数据规模瓶颈,大幅提升了训练效率,解决了存算分离架构下 Shuffle 稳定性和性能困扰,为智能风控等业务提供了强有力的技术支撑。
716 15
|
SQL 存储 缓存
阿里云EMR StarRocks X Paimon创建 Streaming Lakehouse
讲师焦明烨介绍了StarRocks的数据湖能力,如何使用阿里云EMR StarRocks构建基于Paimon的极速实时湖仓,StarRocks与Paimon的最新进展及未来规划。
708 59
|
SQL 弹性计算 分布式计算
阿里云 EMR 发布托管弹性伸缩功能,支持自动调整集群大小,最高降本60%
阿里云开源大数据平台 E-MapReduce 重磅推出托管弹性伸缩功能,基于 EMR 托管弹性伸缩功能,您可以指定集群的最小和最大计算限制,EMR 会持续对与集群上运行的工作负载相关的关键指标进行采样,自动调整集群大小,以获得最佳性能和资源利用率。
701 15
|
SQL 存储 OLAP
阿里云 EMR Serverless StarRocks3.x,极速统一的湖仓新范式
阿里云 EMR Serverless StarRocks3.x,极速统一的湖仓新范式
793 0