【MaxCompute 常见问题】 MaxCompute Spark

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 如何将开源 Spark 代码迁移到 Spark on MaxCompute?分以下三种情形:作业无需访问 MaxCompute 表和 OSS。您的 Jar 包可直接运行,具体步骤请参见搭建开发环境。注意,对于 Spark 或 Hadoop 的依赖必须设成 provided。

MaxCompute Spark


Spark on MaxCompute 常见配置及使用问题


1. MaxCompute中,节点任务的参数如何传递到 spark 的输入参数,例如设置了任务参数 bizdate,在 spark 程序的输入参数这么用可以吗?

可以,直接在 spark 节点参数中引用参数即可,参考文档


2. MaxCompute Spark 流式读取 datahub 数据,写到MaxCompute 有没有参考文档或者代码?

可参考文档


3.  MaxCompute Spark 如何在本地进行调试?

可以使用 IDEA 进行MaxCompute Spark 进行本地调试,参考文档


4.  Spark程序可以处理 MaxCompute 上的表数据?

目前 MaxCompute Spark 支持三种运行方式:Local 模式、Cluster模式和 DataWorks 中执行模式。

三种模式需要进行不同的配置,请参考官方文档


5.    目前 MaxCompute Spark 支持原生 Spark 哪个版本?

目前支持 Spark-1.6.3Spark-2.3.0 和、Spark-2.4.5 如何 Spark on MaxCompute 可以参考一下社区一篇文章


6.    如何将开源 Spark 代码迁移到 Spark on MaxCompute分以下三种情形:

  • 作业无需访问 MaxCompute 表和 OSS。您的 Jar 包可直接运行,具体步骤请参见搭建开发环境注意,对于 Spark Hadoop 的依赖必须设成 provided
  • 作业需要访问 MaxCompute 表。配置相关依赖后重新打包即可。配置依赖的步骤请参见搭建开发环境
  • 作业需要访问 OSS。配置相关依赖后重新打包即可。配置依赖的步骤请参见搭建开发环境


7.  spark-defaults.conf提供的 IDKey 错误 Stack:

com.aliyun.odps.OdpsException:ODPS-0410042:Invalid signature value - User signature dose not match


请检查 spark-defaults.conf 提供的 IDKey 和阿里云官网管理控制台用户信息管理中的 AccessKey IDAccess Key Secret 是否一致。


8. 报错:Stack: com.aliyun.odps.OdpsException: ODPS-0420095:Access Denied - Authorization Failed [4019], You have NO privilege'odps:CreateResource' on {acs:odps:*:projects/*}


Project Owner 授权 Grant Resource Read 以及 Create 权限。


9.    运行报错:No space left on device

Spark 使用网盘进行本地存储。Shuffle 数据和 BlockManager 溢出的数据均存储在网盘上。网盘的大小通过参数spark.hadoop.odps.cupid.disk.driver.device_size 控制,默认20GB,最大 100GB

如果调整到 100GB 仍然报出此错误,则需要分析具体原因。常见的原因为数据倾斜:在 Shuffle 或者 Cache 过程中数据集中分布在某些 Block。此时可以缩小单个 Executor 的并发(spark.executor.cores),增加 Executor 的数量(spark.executor.instances)。


>>快来点击免费下载《阿里云MaxCompute百问百答》了解更多详情!<<


相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
相关文章
|
15天前
|
存储 分布式计算 Hadoop
Spark和Hadoop都是大数据处理领域的重要工具
【6月更文挑战第17天】Spark和Hadoop都是大数据处理领域的重要工具
118 59
|
2天前
|
分布式计算 DataWorks 调度
DataWorks产品使用合集之ODPS Spark找不到自己的stdout,该如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
12 2
|
2天前
|
分布式计算 资源调度 Hadoop
Java大数据处理:Spark与Hadoop整合
Java大数据处理:Spark与Hadoop整合
|
9天前
|
分布式计算 DataWorks MaxCompute
MaxCompute操作报错合集之在Spark访问OSS时出现证书错误的问题,该如何解决
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
9天前
|
SQL 分布式计算 大数据
MaxCompute操作报错合集之使用spark.sql执行rename分区操作,遇到任务报错退出的情况,该怎么办
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
19天前
|
分布式计算 大数据 数据处理
Apache Spark在大数据处理中的应用
Apache Spark是大数据处理的热门工具,由AMPLab开发并捐赠给Apache软件基金会。它以内存计算和优化的执行引擎著称,提供比Hadoop更快的处理速度,支持批处理、交互式查询、流处理和机器学习。Spark架构包括Driver、Master、Worker Node和Executor,核心组件有RDD、DataFrame、Dataset、Spark SQL、Spark Streaming、MLlib和GraphX。文章通过代码示例展示了Spark在批处理、交互式查询和实时数据处理中的应用,并讨论了其优势(高性能、易用性、通用性和集成性)和挑战。【6月更文挑战第11天】
46 6
|
17天前
|
分布式计算 Hadoop 大数据
大数据技术:Hadoop与Spark的对比
【6月更文挑战第15天】**Hadoop与Spark对比摘要** Hadoop是分布式系统基础架构,擅长处理大规模批处理任务,依赖HDFS和MapReduce,具有高可靠性和生态多样性。Spark是快速数据处理引擎,侧重内存计算,提供多语言接口,支持机器学习和流处理,处理速度远超Hadoop,适合实时分析和交互式查询。两者在资源占用和生态系统上有差异,适用于不同应用场景。选择时需依据具体需求。
|
20天前
|
分布式计算 Kubernetes Spark
大数据之spark on k8s
大数据之spark on k8s
|
20天前
|
机器学习/深度学习 数据采集 分布式计算
基于spark的大数据分析预测地震受灾情况的系统设计
基于spark的大数据分析预测地震受灾情况的系统设计
|
22天前
|
分布式计算 DataWorks MaxCompute
DataWorks操作报错合集之spark操作odps,写入时报错,是什么导致的
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。