E-MapReduce Serverless Spark 版测评

本文涉及的产品
对象存储 OSS,OSS 加速器 50 GB 1个月
简介: E-MapReduce Serverless Spark 版测评

一、前言

很荣幸参与到相关的产品测评,我对EMR Serverless Spark的产品特性和优势有以下理解

image.png

EMR Serverless Spark产品理解概述

1. 云原生全托管服务

EMR Serverless Spark是一个专为大规模数据处理和分析设计的云原生产品。它提供全托管的数据平台服务,涵盖任务开发、调试、调度和运维等环节,简化了数据处理的全生命周期工作流程。

2. 产品特性

  • 易用性:无需构建复杂基础设施,即可开始作业开发。
  • 高性能:基于Fusion Engine,性能是开源Spark的2倍。
  • 高扩展性:资源弹性,满足ETL作业高峰需求,降低成本。
  • 资源可观测:提供资源和任务实例级别的监控和告警。
  • 高安全性:基于VPC,提供网络访问和访问控制,保障安全。

3. 开放架构与生态集成

与阿里云OSS-HDFS/OSS、数据湖构建DLF、DataWorks等无缝对接,提供开放架构和生态集成,增强便利性。

4. 产品优势

  • 云原生极速计算引擎:内置Fusion Engine和Celeborn,提升性能,降低成本。
  • 开放化的数据湖架构:支持计算存储分离,兼容HDFS,实现湖仓元数据全面打通。
  • 一站式开发体验:提供作业开发、调试、发布、调度等全流程支持,内置版本管理。
  • Serverless资源平台:无需手动管理基础设施,支持弹性伸缩和按量付费。

EMR Serverless Spark通过其高性能、高扩展性和易用性,为企业提供了一个强大的数据处理和分析平台。其Serverless特性使得资源管理更加灵活,成本效益更高。同时,与阿里云其他服务的无缝集成,进一步增强了其在数据湖和数据仓库场景中的应用潜力。通过这些特性,EMR Serverless Spark不仅提升了数据处理的效率,还降低了企业的运维复杂性和成本,使其成为企业数据平台的理想选择。

二、测评实践步骤

步骤一:创建实时数据流集群 & 发送消息

image.png

  1. 在EMR on ECS界面创建包含Kafka服务的实时数据流集群。
  2. 登录EMR集群的Master节点。
  3. 切换至/var/log/emr/taihao_exporter目录。
  4. 使用kafka-topics.sh脚本创建名为taihaometrics的Topic,设置分区数为10,副本因子为2。
  5. 通过kafka-console-producer.shtaihaometricsTopic发送来自metrics.log的消息。

步骤二:建立网络连接

  1. 访问EMR Serverless Spark控制台。
  2. 进入目标工作空间。
  3. 转至“网络连接”页面。
  4. 添加新的网络连接配置。

image.png

步骤三:配置安全组规则

  1. 获取集群节点交换机的网段信息。
  2. 登录集群管理页面,找到目标集群的安全组链接。
  3. 手动添加安全组规则,指定端口范围和授权对象。


步骤四:上传依赖JAR包

  1. kafka.zip中的所有JAR包上传至OSS桶。

步骤五:上传资源文件

  1. 进入EMR Serverless Spark的“资源上传”页面。
  2. 选择并上传pyspark_ss_demo.py文件。

步骤六:创建并运行流任务

  1. 进入“任务开发”页面。
  2. 新建PySpark类型的流任务,命名并配置基本参数。
  3. 保存并发布任务。
  4. 启动流任务。

步骤七:监控任务日志

  1. 转至“日志探查”页签。
  2. 查看stdOut.log以监控任务执行情况和结果。

EMR Serverless Spark的实践涉及从数据流集群搭建、网络配置、安全策略设定,到资源文件与任务的上传、配置和监控,全流程覆盖了从数据准备到流式任务执行的关键环节。这一过程要求对Kafka、OSS、安全组规则及EMR Serverless Spark控制台有深入理解,确保数据流处理的高效与安全。

三、总结

1. 产品内引导及文档帮助

  • 体验感受:在这次体验中,我感到产品内引导和文档帮助相当给力。每一步操作都有清晰的指引,让我这个技术小白也能轻松上手。不过,如果文档能提供一些更高级的技巧和案例,比如如何优化大规模数据处理,那就更完美了。

2. 产品功能满足预期

  • 接入便捷性:创建集群和发送消息的过程就像点外卖一样简单,EMR Serverless Spark在这方面做得很棒。
  • 数据开发体验:一站式开发体验让我印象深刻,从开发到调度,整个过程流畅得就像在玩滑梯。
  • 弹性伸缩:Serverless的特性让资源管理变得轻松,就像有了一台可以随时变大变小的魔法电脑。
  • 其他功能:资源监控和安全性也很到位,就像有一个保镖随时保护你的数据。

3. 业务场景改进建议

  • 资源管理:如果能有一些智能推荐,比如自动优化资源使用,那会大大提升我们的工作效率。
  • 任务调度:希望任务调度能更智能一些,比如根据任务的紧急程度自动调整优先级。
  • 用户体验:界面设计如果能更直观一些,比如通过图形化展示任务状态,会让操作更加直观易懂。

4. 产品联动组合可能性

  • 与其他数据服务:想象一下,如果EMR Serverless Spark能和阿里云的OSS、DataWorks等数据服务无缝对接,那将是多么美妙的体验。
  • 与其他计算服务:如果能和ECS、函数计算等计算服务结合,那将提供更多的灵活性和选择。

OLAP引擎对比测评

1. 使用Spark引擎经验

  • 功能:使用EMR Serverless Spark就像驾驶一辆高性能跑车,功能丰富,操作灵活。
  • 性能:内置的Fusion Engine和Celeborn服务让性能提升了一个档次,处理大规模数据集就像切菜一样轻松。
  • 可扩展性:计算存储分离的设计让扩展变得简单,就像搭积木一样。

2. 满足业务需求的优势

  • 效率:从开发到部署的一站式体验,让我感觉就像是在玩一个流畅的游戏。
  • 问题诊断:详细的日志和监控指标,就像是给了你一副透视眼镜,让你能清楚地看到问题所在。

3. 有待改进的地方

  • 文档和示例:虽然文档已经很全面,但如果能提供一些更深入的案例和最佳实践,那将对我们这些技术爱好者更有帮助。
  • 用户界面:在用户体验方面,如果能有一些更直观的图形化展示,那将大大提高我们的工作效率。

4. 与其他产品联动组合的可能性

  • 与BI工具:如果EMR Serverless Spark能和BI工具如QuickSight、Tableau等结合,那将为我们提供从数据存储到分析的完整解决方案。
  • 与机器学习平台:如果能和阿里云的机器学习平台结合,那将扩展数据分析的应用场景,比如预测分析、推荐系统等。
相关实践学习
【AI破次元壁合照】少年白马醉春风,函数计算一键部署AI绘画平台
本次实验基于阿里云函数计算产品能力开发AI绘画平台,可让您实现“破次元壁”与角色合照,为角色换背景效果,用AI绘图技术绘出属于自己的少年江湖。
从 0 入门函数计算
在函数计算的架构中,开发者只需要编写业务代码,并监控业务运行情况就可以了。这将开发者从繁重的运维工作中解放出来,将精力投入到更有意义的开发任务上。
目录
相关文章
|
10月前
|
分布式计算 运维 搜索推荐
立马耀:通过阿里云 Serverless Spark 和 Milvus 构建高效向量检索系统,驱动个性化推荐业务
蝉妈妈旗下蝉选通过迁移到阿里云 Serverless Spark 及 Milvus,解决传统架构性能瓶颈与运维复杂性问题。新方案实现离线任务耗时减少40%、失败率降80%,Milvus 向量检索成本降低75%,支持更大规模数据处理,查询响应提速。
542 57
|
8月前
|
人工智能 分布式计算 DataWorks
一体系数据平台的进化:基于阿里云 EMR Serverless Spark 的持续演进
本文介绍了一体系汽配供应链平台如何借助阿里云EMR Serverless Spark实现从传统Hadoop平台向云原生架构的迁移。通过融合高质量零部件供应与创新互联网科技,一体系利用EMR Serverless Spark和DataWorks构建高效数据分析体系,解决大规模数据处理瓶颈。方案涵盖实时数据集成、Lakehouse搭建、数仓分层设计及BI/ML应用支持,显著提升数据处理性能与业务响应速度,降低运维成本,为数字化转型奠定基础。最终实现研发效率提升、运维压力减轻,并推动AI技术深度整合,迈向智能化云原生数据平台。
278 4
|
8月前
|
分布式计算 运维 监控
Fusion 引擎赋能:流利说如何用阿里云 Serverless Spark 实现数仓计算加速
本文介绍了流利说与阿里云合作,利用EMR Serverless Spark优化数据处理的全过程。流利说是科技驱动的教育公司,通过AI技术提升用户英语水平。原有架构存在资源管理、成本和性能等痛点,采用EMR Serverless Spark后,实现弹性资源管理、按需计费及性能优化。方案涵盖数据采集、存储、计算到查询的完整能力,支持多种接入方式与高效调度。迁移后任务耗时减少40%,失败率降低80%,成本下降30%。未来将深化合作,探索更多行业解决方案。
577 1
|
4月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
608 30
|
5月前
|
存储 人工智能 Serverless
函数计算进化之路:AI 应用运行时的状态剖析
AI应用正从“请求-响应”迈向“对话式智能体”,推动Serverless架构向“会话原生”演进。阿里云函数计算引领云上 AI 应用 Serverless 运行时技术创新,实现性能、隔离与成本平衡,开启Serverless AI新范式。
616 12
|
10月前
|
SQL 分布式计算 Serverless
鹰角网络:EMR Serverless Spark 在《明日方舟》游戏业务的应用
鹰角网络为应对游戏业务高频活动带来的数据潮汐、资源弹性及稳定性需求,采用阿里云 EMR Serverless Spark 替代原有架构。迁移后实现研发效率提升,支持业务快速发展、计算效率提升,增强SLA保障,稳定性提升,降低运维成本,并支撑全球化数据架构部署。
1147 56
鹰角网络:EMR Serverless Spark 在《明日方舟》游戏业务的应用
|
10月前
|
人工智能 开发框架 安全
Serverless MCP 运行时业界首发,函数计算让 AI 应用最后一公里提速
作为云上托管 MCP 服务的最佳运行时,函数计算 FC 为阿里云百炼 MCP 提供弹性调用能力,用户只需提交 npx 命令即可“零改造”将开源 MCP Server 部署到云上,函数计算 FC 会准备好计算资源,并以弹性、可靠的方式运行 MCP 服务,按实际调用时长和次数计费,欢迎你在阿里云百炼和函数计算 FC 上体验 MCP 服务。
857 31
|
8月前
|
存储 编解码 Serverless
Serverless架构下的OSS应用:函数计算FC自动处理图片/视频转码(演示水印添加+缩略图生成流水线)
本文介绍基于阿里云函数计算(FC)和对象存储(OSS)构建Serverless媒体处理流水线,解决传统方案资源利用率低、运维复杂、成本高等问题。通过事件驱动机制实现图片水印添加、多规格缩略图生成及视频转码优化,支持毫秒级弹性伸缩与精确计费,提升处理效率并降低成本,适用于高并发媒体处理场景。
583 0
|
5月前
|
人工智能 运维 安全
聚焦 AI 应用基础设施,云栖大会 Serverless AI 全回顾
2025 年 9 月 26 日,为期三天的云栖大会在杭州云栖小镇圆满闭幕。随着大模型技术的飞速发展,我们正从云原生时代迈向一个全新的 AI 原生应用时代。为了解决企业在 AI 应用落地中面临的高成本、高复杂度和高风险等核心挑战,阿里云基于函数计算 FC 发布一系列重磅服务。本文将对云栖大会期间 Serverless+AI 基础设施相关内容进行全面总结。