带你读《阿里云产品五月刊》——五、阿里云 EMR Serverless Spark 版开启免费公测

本文涉及的产品
对象存储 OSS,20GB 3个月
函数计算FC,每月15万CU 3个月
对象存储 OSS,内容安全 1000次 1年
简介: 阿里云 EMR Serverless Spark 版开启免费公测

简介: EMR Serverless Spark 版免费公测已开启,预计于2024年06月25日结束。公测阶段面向所有用户开放,您可以免费试用。

 

阿里云 EMR Serverless Spark 版是一款云原生,专为大规模数据处理和分析而设计的全托管 Serverless 产品。它为企业提供了一站式的数据平台服务,包括任务开发、调试、调度和运维等,极大地简化了数据处理的全生命周期工作流程。使用 EMR Serverless Spark 版,企业可以更专注于数据分析和价值提炼,提高工作效率。

 

阿里云 EMR Serverless Spark 版现已开启公测,欢迎广大开发者及企业用户参与,解锁全托管、一站式数据开发体验。

 

立即开通

 

产品优势

云原生极速计算引擎:内置 Spark Native Engine,相对开源版本性能提升200%;内置 Celeborn,支持 PB 级 Shuffle 数据,计算资源总成本最高下降 30% 。

开放化的数据湖架构:支持计算存储分离,计算可弹性伸缩、存储可按量付费;对接 OSS-HDFS,完全兼容 HDFS 的云上存储,无缝平滑迁移上云;中心化的 DLF 元数据,全面打通湖仓元数据。

一站式的开发体验:提供作业开发、调试、发布、调度等一站式数据开发体验;内置版本管理、开发与生产隔离,满足企业级开发与发布标准。

Serverless 的资源平台:开箱即用,无需手动管理和运维云基础设施;弹性伸缩,秒级资源弹性与供给。

 

应用场景

基于 EMR Serverless Spark 版建立数据平台

得益于EMR Serverless Spark 版开放的产品架构,使得其在数据湖中对结构化和非结构化数据进行分析与处理变得简单高效。此外,还内置了任务调度系统,允许用户轻松构建和管理数据 ETL 任务,实现数据管道的自动化和周期性数据处理。

 

EMR Serverless Spark 版还内嵌了先进的版本管理系统,并提供了开发与生产环境的完全隔离,确保符合企业级用户在研发和发布流程方面的严格要求。这些特性共同保障了数据处理的可靠性和效率,同时满足企业级应用的高标准要求。

  image.png

公测说明

EMR Serverless Spark 版免费公测已开启,预计于2024年06月25日结束。公测阶段面向所有用户开放,您可以免费试用。免费试用结束后,产品将正常计费。

免费公测限制

公测期间,有以下限制:

 

工作空间的资源配额上限为100计算单元(CU)。

单个Spark任务所能处理的Shuffle数据量最大限制为5 TB。

工作空间内所有并行运行的任务共写入Shuffle数据的总量上限为10 TB。

同一工作空间内允许并发执行的任务数量上限为100个。

不保障服务等级协议(SLA),但服务不降级。

公测期间包年包月的工作空间仅支持续费一个月。

操作步骤

进入 EMR Serverless Spark 页面。

登录E-MapReduce控制台

在左侧导航栏,选择EMR Serverless > Spark。

在顶部菜单栏处,根据实际情况选择地域。

 

在Spark页面,单击创建工作空间。

image.png

在 E-MapReduce Serverless Spark 页面,完成相关配置。

参数

说明

示例

地域

建议选择与您数据所在地相同的地域。

华东1(杭州)

付费类型

目前仅支持按量付费。

按量付费

工作空间名称

以字母开头,仅支持英文字母、数字和短划线(-),长度限制为1~60个字符。

说明

同一个阿里云账号下的工作空间名称是唯一的,请勿填写已有的名称,否则会提示您重新填写。

emr-serverless-spark

DLF Catalog

用于存储和管理您的元数据。

开通DLF后,系统会为您选择默认的DLF数据目录,默认为UID。如果针对不同集群您期望使用不同的数据目录,则可以按照以下方式新建目录。

单击创建数据目录,在弹出的对话框中输入目录ID,选择目录路径,然后单击确定。详情请参见数据目录

在DLF Catalog下拉列表中,选择您新建的数据目录。

emr-dlf

瞬时资源上限

工作空间同时处理任务的最大并发CU数量。

100

工作空间基础路径

用于存储作业日志、运行事件、资源等数据文件。建议选择一个开通了OSS-HDFS服务的Bucket。

emr-oss-hdfs

工作空间类型

支持基础版和专业版。更多信息,请参见工作空间类型说明

专业版

高级设置

打开该开关后,您需要配置以下信息:

执行角色:指定EMR Serverless Spark运行作业所采用的角色名,角色名称为AliyunEMRSparkJobRunDefaultRole。

EMR Spark使用该角色来访问您在其他云产品中的资源,包括OSS和DLF等产品的资源。

AliyunEMRSparkJobRunDefaultRole

image.png

当所有的信息确认正确后,单击创建工作空间。

联系我们

如果您在使用 EMR Serverless Spark 版的过程中遇到任何疑问,可加入钉钉群58570004119咨询。

快速跳转

EMR Serverless Spark 版官网:https://www.aliyun.com/product/bigdata/serverlessspark

产品控制台:https://emr-next.console.aliyun.com/

产品文档:https://help.aliyun.com/zh/emr/emr-serverless-spark/

SQL 任务快速入门:https://help.aliyun.com/zh/emr/emr-serverless-spark/getting-started/get-started-with-sql-task-development


相关实践学习
【文生图】一键部署Stable Diffusion基于函数计算
本实验教你如何在函数计算FC上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。函数计算提供一定的免费额度供用户使用。本实验答疑钉钉群:29290019867
建立 Serverless 思维
本课程包括: Serverless 应用引擎的概念, 为开发者带来的实际价值, 以及让您了解常见的 Serverless 架构模式
目录
相关文章
|
8天前
|
SQL 大数据 数据管理
EMR Serverless StarRocks体验测评
【8月更文挑战第14天】EMR Serverless StarRocks体验测评
26 0
|
2月前
|
分布式计算 Serverless Spark
【开发者评测】E-MapReduce Serverless Spark获奖名单
E-MapReduce Serverless Spark获奖名单正式公布!
166 1
|
2月前
|
分布式计算 监控 Serverless
E-MapReduce Serverless Spark 版测评
E-MapReduce Serverless Spark 版测评
11583 10
|
22天前
|
分布式计算 Serverless 数据处理
EMR Serverless Spark 实践教程 | 通过 Apache Airflow 使用 Livy Operator 提交任务
Apache Airflow 是一个强大的工作流程自动化和调度工具,它允许开发者编排、计划和监控数据管道的执行。EMR Serverless Spark 为处理大规模数据处理任务提供了一个无服务器计算环境。本文为您介绍如何通过 Apache Airflow 的 Livy Operator 实现自动化地向 EMR Serverless Spark 提交任务,以实现任务调度和执行的自动化,帮助您更有效地管理数据处理任务。
136 0
|
2月前
|
运维 数据挖掘 Serverless
深度解析阿里云EMR Serverless StarRocks在OLAP数据分析中的应用场景
阿里云EMR Serverless StarRocks作为一款高性能、全场景覆盖、全托管免运维的OLAP分析引擎,在企业数据分析领域展现出了强大的竞争力和广泛的应用前景。通过其卓越的技术特点、丰富的应用场景以及完善的生态体系支持,EMR Serverless StarRocks正逐步成为企业数字化转型和智能化升级的重要推手。未来随着技术的不断进步和应用场景的不断拓展我们有理由相信EMR Serverless StarRocks将在更多领域发挥重要作用为企业创造更大的价值。
|
15天前
|
分布式计算 大数据 MaxCompute
EMR Remote Shuffle Service实践问题之阿里云RSS的开源计划内容如何解决
EMR Remote Shuffle Service实践问题之阿里云RSS的开源计划内容如何解决
|
15天前
|
分布式计算 测试技术 调度
EMR Remote Shuffle Service实践问题之集群中落地阿里云RSS如何解决
EMR Remote Shuffle Service实践问题之集群中落地阿里云RSS如何解决
|
4天前
|
SQL 存储 NoSQL
阿里云 EMR StarRocks 在七猫的应用和实践
本文整理自七猫资深大数据架构师蒋乾老师在 《阿里云 x StarRocks:极速湖仓第二季—上海站》的分享。
77 2
|
12天前
|
存储 分布式计算 大数据
大数据革新在即,阿里云EMR如何布局DeltaLake引领行业潮流?
【8月更文挑战第26天】大数据时代,实时处理与分析能力对企业至关重要。Delta Lake 作为高性能、可靠且支持 ACID 事务的开源存储层,已成为业界焦点。阿里云 EMR 深度布局 Delta Lake,计划深化集成、强化数据安全、优化实时性能,并加强生态建设与社区贡献。通过与 Spark 的无缝对接及持续的技术创新,阿里云 EMR 致力于提供更高效、安全的数据湖解决方案,引领大数据处理领域的发展新方向。
24 3
|
12天前
|
存储 分布式计算 监控
揭秘阿里云EMR:如何巧妙降低你的数据湖成本,让大数据不再昂贵?
【8月更文挑战第26天】阿里云EMR是一种高效的大数据处理服务,助力企业优化数据湖的成本效益。它提供弹性计算资源,支持根据需求调整规模;兼容并优化了Hadoop、Spark等开源工具,提升性能同时降低资源消耗。借助DataWorks及Data Lake Formation等工具,EMR简化了数据湖构建与管理流程,实现了数据的统一化治理。此外,EMR还支持OSS、Table Store等多种存储选项,并配备监控优化工具,确保数据处理流程高效稳定。通过这些措施,EMR帮助企业显著降低了数据处理和存储成本。
26 3

热门文章

最新文章

下一篇
DDNS