【MaxCompute 常见问题】 MaxCompute Spark

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 如何将开源 Spark 代码迁移到 Spark on MaxCompute?分以下三种情形:作业无需访问 MaxCompute 表和 OSS。您的 Jar 包可直接运行,具体步骤请参见搭建开发环境。注意,对于 Spark 或 Hadoop 的依赖必须设成 provided。

MaxCompute Spark


Spark on MaxCompute 常见配置及使用问题


1. MaxCompute中,节点任务的参数如何传递到 spark 的输入参数,例如设置了任务参数 bizdate,在 spark 程序的输入参数这么用可以吗?

可以,直接在 spark 节点参数中引用参数即可,参考文档


2. MaxCompute Spark 流式读取 datahub 数据,写到MaxCompute 有没有参考文档或者代码?

可参考文档


3.  MaxCompute Spark 如何在本地进行调试?

可以使用 IDEA 进行MaxCompute Spark 进行本地调试,参考文档


4.  Spark程序可以处理 MaxCompute 上的表数据?

目前 MaxCompute Spark 支持三种运行方式:Local 模式、Cluster模式和 DataWorks 中执行模式。

三种模式需要进行不同的配置,请参考官方文档


5.    目前 MaxCompute Spark 支持原生 Spark 哪个版本?

目前支持 Spark-1.6.3Spark-2.3.0 和、Spark-2.4.5 如何 Spark on MaxCompute 可以参考一下社区一篇文章


6.    如何将开源 Spark 代码迁移到 Spark on MaxCompute分以下三种情形:

  • 作业无需访问 MaxCompute 表和 OSS。您的 Jar 包可直接运行,具体步骤请参见搭建开发环境注意,对于 Spark Hadoop 的依赖必须设成 provided
  • 作业需要访问 MaxCompute 表。配置相关依赖后重新打包即可。配置依赖的步骤请参见搭建开发环境
  • 作业需要访问 OSS。配置相关依赖后重新打包即可。配置依赖的步骤请参见搭建开发环境


7.  spark-defaults.conf提供的 IDKey 错误 Stack:

com.aliyun.odps.OdpsException:ODPS-0410042:Invalid signature value - User signature dose not match


请检查 spark-defaults.conf 提供的 IDKey 和阿里云官网管理控制台用户信息管理中的 AccessKey IDAccess Key Secret 是否一致。


8. 报错:Stack: com.aliyun.odps.OdpsException: ODPS-0420095:Access Denied - Authorization Failed [4019], You have NO privilege'odps:CreateResource' on {acs:odps:*:projects/*}


Project Owner 授权 Grant Resource Read 以及 Create 权限。


9.    运行报错:No space left on device

Spark 使用网盘进行本地存储。Shuffle 数据和 BlockManager 溢出的数据均存储在网盘上。网盘的大小通过参数spark.hadoop.odps.cupid.disk.driver.device_size 控制,默认20GB,最大 100GB

如果调整到 100GB 仍然报出此错误,则需要分析具体原因。常见的原因为数据倾斜:在 Shuffle 或者 Cache 过程中数据集中分布在某些 Block。此时可以缩小单个 Executor 的并发(spark.executor.cores),增加 Executor 的数量(spark.executor.instances)。


>>快来点击免费下载《阿里云MaxCompute百问百答》了解更多详情!<<


相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
4月前
|
人工智能 分布式计算 大数据
大数据≠大样本:基于Spark的特征降维实战(提升10倍训练效率)
本文探讨了大数据场景下降维的核心问题与解决方案,重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例,揭示高维空间中样本稀疏性问题,并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用,包括数据准备、核心实现与效果评估,同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外,还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应,为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则,展望未来发展方向。
244 0
|
7月前
|
存储 分布式计算 Hadoop
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
322 79
|
11月前
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
746 2
ClickHouse与大数据生态集成:Spark & Flink 实战
|
存储 分布式计算 算法
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
214 0
|
消息中间件 分布式计算 NoSQL
大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新
大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新
204 0
|
消息中间件 存储 分布式计算
大数据-103 Spark Streaming Kafka Offset管理详解 Scala自定义Offset
大数据-103 Spark Streaming Kafka Offset管理详解 Scala自定义Offset
251 0
|
11月前
|
SQL 机器学习/深度学习 分布式计算
Spark快速上手:揭秘大数据处理的高效秘密,让你轻松应对海量数据
【10月更文挑战第25天】本文全面介绍了大数据处理框架 Spark,涵盖其基本概念、安装配置、编程模型及实际应用。Spark 是一个高效的分布式计算平台,支持批处理、实时流处理、SQL 查询和机器学习等任务。通过详细的技术综述和示例代码,帮助读者快速掌握 Spark 的核心技能。
504 6
|
11月前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第27天】在大数据时代,数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件,通过HDFS存储数据和Spark进行高效计算,实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践,包括数据存储、处理、安全和可视化等方面,展示了它们在实际应用中的协同效应。
491 2
|
11月前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用,通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理,确保高可靠性和容错性;Spark则凭借其高性能和丰富的API,进行深度分析和机器学习,实现高效的批处理和实时处理。
419 1
|
11月前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。

热门文章

最新文章