阿里云 EMR Serverless Spark 版开启免费公测

简介: EMR Serverless Spark 版免费公测已开启,预计于2024年06月25日结束。公测阶段面向所有用户开放,您可以免费试用。

阿里云 EMR Serverless Spark 版是一款云原生,专为大规模数据处理和分析而设计的全托管 Serverless 产品。它为企业提供了一站式的数据平台服务,包括任务开发、调试、调度和运维等,极大地简化了数据处理的全生命周期工作流程。使用 EMR Serverless Spark 版,企业可以更专注于数据分析和价值提炼,提高工作效率。

阿里云 EMR Serverless Spark 版现已开启公测,欢迎广大开发者及企业用户参与,解锁全托管、一站式数据开发体验。

立即开通


产品优势

  • 云原生极速计算引擎:内置 Spark Native Engine,相对开源版本性能提升200%内置 Celeborn,支持 PB 级 Shuffle 数据,计算资源总成本最高下降 30%

  • 开放化的数据湖架构:支持计算存储分离,计算可弹性伸缩、存储可按量付费;对接 OSS-HDFS,完全兼容 HDFS 的云上存储,无缝平滑迁移上云;中心化的 DLF 元数据,全面打通湖仓元数据。

  • 一站式的开发体验:提供作业开发、调试、发布、调度等一站式数据开发体验;内置版本管理、开发与生产隔离,满足企业级开发与发布标准。

  • Serverless 的资源平台:开箱即用,无需手动管理和运维云基础设施;弹性伸缩,秒级资源弹性与供给。

应用场景

基于 EMR Serverless Spark 版建立数据平台

得益于EMR Serverless Spark 版开放的产品架构,使得其在数据湖中对结构化和非结构化数据进行分析与处理变得简单高效。此外,还内置了任务调度系统,允许用户轻松构建和管理数据 ETL 任务,实现数据管道的自动化和周期性数据处理。

EMR Serverless Spark 版还内嵌了先进的版本管理系统,并提供了开发与生产环境的完全隔离,确保符合企业级用户在研发和发布流程方面的严格要求。这些特性共同保障了数据处理的可靠性和效率,同时满足企业级应用的高标准要求。

公测说明

EMR Serverless Spark 版免费公测已开启,预计于2024年06月25日结束。公测阶段面向所有用户开放,您可以免费试用。免费试用结束后,产品将正常计费。

免费公测限制

公测期间,有以下限制:

  • 工作空间的资源配额上限为100计算单元(CU)。
  • 单个Spark任务所能处理的Shuffle数据量最大限制为5 TB。
  • 工作空间内所有并行运行的任务共写入Shuffle数据的总量上限为10 TB。
  • 同一工作空间内允许并发执行的任务数量上限为100个。
  • 不保障服务等级协议(SLA),但服务不降级。
  • 公测期间包年包月的工作空间仅支持续费一个月。

操作步骤

  1. 进入 EMR Serverless Spark 页面。
  1. 登录E-MapReduce控制台
  2. 在左侧导航栏,选择EMR Serverless > Spark
  3. 在顶部菜单栏处,根据实际情况选择地域。


  1. Spark页面,单击创建工作空间


  1. 在 E-MapReduce Serverless Spark 页面,完成相关配置

参数

说明

示例

地域

建议选择与您数据所在地相同的地域。

华东1(杭州)

付费类型

目前仅支持按量付费

按量付费

工作空间名称

以字母开头,仅支持英文字母、数字和短划线(-),长度限制为1~60个字符。

说明

同一个阿里云账号下的工作空间名称是唯一的,请勿填写已有的名称,否则会提示您重新填写。

emr-serverless-spark

DLF Catalog

用于存储和管理您的元数据。

开通DLF后,系统会为您选择默认的DLF数据目录,默认为UID。如果针对不同集群您期望使用不同的数据目录,则可以按照以下方式新建目录。

  1. 单击创建数据目录,在弹出的对话框中输入目录ID,选择目录路径,然后单击确定。详情请参见数据目录
  2. DLF Catalog下拉列表中,选择您新建的数据目录。

emr-dlf

瞬时资源上限

工作空间同时处理任务的最大并发CU数量。

100

工作空间基础路径

用于存储作业日志、运行事件、资源等数据文件。建议选择一个开通了OSS-HDFS服务的Bucket。

emr-oss-hdfs

工作空间类型

支持基础版专业版。更多信息,请参见工作空间类型说明

专业版

高级设置

打开该开关后,您需要配置以下信息:

执行角色:指定EMR Serverless Spark运行作业所采用的角色名,角色名称为AliyunEMRSparkJobRunDefaultRole。

EMR Spark使用该角色来访问您在其他云产品中的资源,包括OSS和DLF等产品的资源。

AliyunEMRSparkJobRunDefaultRole

  1. 当所有的信息确认正确后,单击创建工作空间

联系我们

如果您在使用 EMR Serverless Spark 版的过程中遇到任何疑问,可加入钉钉群58570004119咨询。

快速跳转

  1. EMR Serverless Spark 版官网:https://www.aliyun.com/product/bigdata/serverlessspark
  2. 产品控制台:https://emr-next.console.aliyun.com/
  3. 产品文档:https://help.aliyun.com/zh/emr/emr-serverless-spark/
  4. SQL 任务快速入门:https://help.aliyun.com/zh/emr/emr-serverless-spark/getting-started/get-started-with-sql-task-development

目录
相关文章
|
DataWorks 数据挖掘 Serverless
阿里云EMR Serverless StarRocks 内容合集
阿里云 EMR StarRocks 提供存算分离架构,支持实时湖仓分析,适用于多种 OLAP 场景。结合 Paimon 与 Flink,助力企业高效处理海量数据,广泛应用于游戏、教育、生活服务等领域,显著提升数据分析效率与业务响应速度。
601 0
|
人工智能 分布式计算 DataWorks
一体系数据平台的进化:基于阿里云 EMR Serverless Spark 的持续演进
本文介绍了一体系汽配供应链平台如何借助阿里云EMR Serverless Spark实现从传统Hadoop平台向云原生架构的迁移。通过融合高质量零部件供应与创新互联网科技,一体系利用EMR Serverless Spark和DataWorks构建高效数据分析体系,解决大规模数据处理瓶颈。方案涵盖实时数据集成、Lakehouse搭建、数仓分层设计及BI/ML应用支持,显著提升数据处理性能与业务响应速度,降低运维成本,为数字化转型奠定基础。最终实现研发效率提升、运维压力减轻,并推动AI技术深度整合,迈向智能化云原生数据平台。
452 4
|
机器学习/深度学习 人工智能 分布式计算
阿里云发起首届 Spark “数字人体” AI 挑战赛 — 聚焦上班族脊柱健康
2020年6月4日,首届 Apache Spark AI 智能诊断大赛在天池官网上线。Spark “数字人体” AI 挑战赛——脊柱疾病智能诊断大赛,聚焦医疗领域应用,召集全球开发者利用人工智能技术探索高效准确的脊柱退化性疾病自动诊断。现已面向全社会开放,为所有大数据技术爱好者以及相关的科研企业提供挑战平台,个人参赛或高等院校、科研单位、互联网企业等人员均可报名参赛。本次挑战的目标是通过核磁共振成像来检测和分类脊柱的退行性改变,形成一批创新性强、复用率高的算法案例,并积极推动相关技术的临床应用,用科技造福医疗事业,鼓励人工智能与疾病预防深度融合的应用落地,由点到面驱动国内人工智能医疗产业发展。
阿里云发起首届 Spark “数字人体” AI 挑战赛 — 聚焦上班族脊柱健康
|
人工智能 分布式计算 大数据
大数据≠大样本:基于Spark的特征降维实战(提升10倍训练效率)
本文探讨了大数据场景下降维的核心问题与解决方案,重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例,揭示高维空间中样本稀疏性问题,并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用,包括数据准备、核心实现与效果评估,同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外,还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应,为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则,展望未来发展方向。
681 0
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
1238 2
ClickHouse与大数据生态集成:Spark & Flink 实战
|
存储 分布式计算 Hadoop
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
777 79
|
存储 分布式计算 算法
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
457 0
|
消息中间件 分布式计算 NoSQL
大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新
大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新
398 0
|
消息中间件 存储 分布式计算
大数据-103 Spark Streaming Kafka Offset管理详解 Scala自定义Offset
大数据-103 Spark Streaming Kafka Offset管理详解 Scala自定义Offset
482 0

热门文章

最新文章