【MaxCompute 常见问题】 MaxCompute Spark

简介: 如何将开源 Spark 代码迁移到 Spark on MaxCompute?分以下三种情形:作业无需访问 MaxCompute 表和 OSS。您的 Jar 包可直接运行,具体步骤请参见搭建开发环境。注意,对于 Spark 或 Hadoop 的依赖必须设成 provided。

MaxCompute Spark


Spark on MaxCompute 常见配置及使用问题


1. MaxCompute中,节点任务的参数如何传递到 spark 的输入参数,例如设置了任务参数 bizdate,在 spark 程序的输入参数这么用可以吗?

可以,直接在 spark 节点参数中引用参数即可,参考文档


2. MaxCompute Spark 流式读取 datahub 数据,写到MaxCompute 有没有参考文档或者代码?

可参考文档


3.  MaxCompute Spark 如何在本地进行调试?

可以使用 IDEA 进行MaxCompute Spark 进行本地调试,参考文档


4.  Spark程序可以处理 MaxCompute 上的表数据?

目前 MaxCompute Spark 支持三种运行方式:Local 模式、Cluster模式和 DataWorks 中执行模式。

三种模式需要进行不同的配置,请参考官方文档


5.    目前 MaxCompute Spark 支持原生 Spark 哪个版本?

目前支持 Spark-1.6.3Spark-2.3.0 和、Spark-2.4.5 如何 Spark on MaxCompute 可以参考一下社区一篇文章


6.    如何将开源 Spark 代码迁移到 Spark on MaxCompute分以下三种情形:

  • 作业无需访问 MaxCompute 表和 OSS。您的 Jar 包可直接运行,具体步骤请参见搭建开发环境注意,对于 Spark Hadoop 的依赖必须设成 provided
  • 作业需要访问 MaxCompute 表。配置相关依赖后重新打包即可。配置依赖的步骤请参见搭建开发环境
  • 作业需要访问 OSS。配置相关依赖后重新打包即可。配置依赖的步骤请参见搭建开发环境


7.  spark-defaults.conf提供的 IDKey 错误 Stack:

com.aliyun.odps.OdpsException:ODPS-0410042:Invalid signature value - User signature dose not match


请检查 spark-defaults.conf 提供的 IDKey 和阿里云官网管理控制台用户信息管理中的 AccessKey IDAccess Key Secret 是否一致。


8. 报错:Stack: com.aliyun.odps.OdpsException: ODPS-0420095:Access Denied - Authorization Failed [4019], You have NO privilege'odps:CreateResource' on {acs:odps:*:projects/*}


Project Owner 授权 Grant Resource Read 以及 Create 权限。


9.    运行报错:No space left on device

Spark 使用网盘进行本地存储。Shuffle 数据和 BlockManager 溢出的数据均存储在网盘上。网盘的大小通过参数spark.hadoop.odps.cupid.disk.driver.device_size 控制,默认20GB,最大 100GB

如果调整到 100GB 仍然报出此错误,则需要分析具体原因。常见的原因为数据倾斜:在 Shuffle 或者 Cache 过程中数据集中分布在某些 Block。此时可以缩小单个 Executor 的并发(spark.executor.cores),增加 Executor 的数量(spark.executor.instances)。


>>快来点击免费下载《阿里云MaxCompute百问百答》了解更多详情!<<


相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
相关文章
|
2月前
|
SQL 分布式计算 DataWorks
DataWorks常见问题之maxcompute资源打开失败如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
|
4月前
|
机器学习/深度学习 SQL 分布式计算
Apache Spark 的基本概念和在大数据分析中的应用
介绍 Apache Spark 的基本概念和在大数据分析中的应用
162 0
|
1月前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
4月前
|
机器学习/深度学习 SQL 分布式计算
介绍 Apache Spark 的基本概念和在大数据分析中的应用。
介绍 Apache Spark 的基本概念和在大数据分析中的应用。
|
13天前
|
分布式计算 DataWorks 大数据
MaxCompute操作报错合集之大数据计算的MaxCompute Spark引擎无法读取到表,是什么原因
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
MaxCompute操作报错合集之大数据计算的MaxCompute Spark引擎无法读取到表,是什么原因
|
13天前
|
SQL 分布式计算 大数据
MaxCompute操作报错合集之spark3.1.1通过resource目录下的conf文件配置,报错如何解决
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
18天前
|
分布式计算 大数据 数据处理
[AIGC大数据基础] Spark 入门
[AIGC大数据基础] Spark 入门
141 0
|
2月前
|
数据采集 分布式计算 DataWorks
DataWorks常见问题之dataworks引用maxcompute资源失败如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
|
3月前
|
分布式计算 大数据 Java
Spark 大数据实战:基于 RDD 的大数据处理分析
Spark 大数据实战:基于 RDD 的大数据处理分析
138 0

热门文章

最新文章