【MaxCompute Spark】不想自己搭Spark集群, 也能跑Spark分布式作业???

简介: 【MaxCompute Spark】不想自己搭Spark集群, 也能跑Spark分布式作业???

MaxCompute Spark 是什么?

阿里云的用户大部分应该都听说过MaxCompute,但是MaxCompute Spark是什么?我尝试用几个问题来回答这个问题。

  • 公司准备把Spark的业务和作业上阿里云,从以前的经验来看,运维Spark+Hadoop集群可是个重头活,存不存在这种提供Spark服务的PaaS产品?
  • 公司的部分业务以及作业顺利迁移至MaxCompute了,Spark作业还得能够和MaxCompute的数据无缝集成呀?
  • 云上的Spark作业成本不知道该怎么打算盘了?

MaxCompute Spark提供了:

  • 全托管、与MaxCompute一体化集成的Spark解决方案,只需关注Spark Application开发,没有集群运维的脏活累活。
  • 从调度上、存储上,与MaxCompute native集成,性能最优解;并且能够无缝集成MaxCompute本身的数据。
  • Paas模式,单作业计费模式,比构建一个Spark集群更加便宜。

更多详情请看 https://help.aliyun.com/document_detail/102357.html?spm=a2c4g.11186623.6.765.326d7bc3Scfwxb

用MaxCompute Spark快速冒烟

我将以一个开发者的角色,以一个快速冒烟的Case,过一遍MaxCompute Spark的冒烟过程。

!!!前置依赖 !!!
唯一的前置依赖是,已经是MaxCompute客户,并获取MaxCompute的

  • projectName
  • accessId
  • accessKey

步骤一 获取MaxCompute Spark客户端

spark-2.3.0

请下载Spark客户端并且解压到本地的任意目录

步骤二 配置spark-defaults.conf

# 解压后的下述路径有一个配置的模版
${SPARK_HOME}/conf/spark-defaults.conf.template

# 需要做一个rename操作
mv spark-defaults.conf.template spark-defaults.conf

# Edit 以下配置只需要填入projectName accessId accessKey即可
# OdpsAccount Info Setting
spark.hadoop.odps.project.name =
spark.hadoop.odps.access.id =
spark.hadoop.odps.access.key =
spark.hadoop.odps.end.point = http://service.cn.maxcompute.aliyun.com/api

# this endpoint should not change
spark.hadoop.odps.runtime.end.point = http://service.cn.maxcompute.aliyun-inc.com/api
# Resource Requirement
# spark.executor.instances = 1
# spark.executor.cores = 2
# spark.executor.memory = 6g
# spark.driver.cores = 2
# spark.driver.memory = 4g
# spark.master = yarn-cluster

# Cupid Service Version
spark.hadoop.odps.task.major.version = cupid_v2

# Odps Catalog
spark.sql.catalogImplementation = odps

# Cupid Longtime Job
# spark.hadoop.odps.cupid.engine.running.type = longtime
# spark.hadoop.odps.cupid.job.capability.duration.hours = 8640
# spark.hadoop.odps.moye.trackurl.dutation = 8640

# SparkR Setting
# odps.cupid.spark.r.archive=/path/to/R-PreCompile-Package.zip

spark.hadoop.odps.cupid.webproxy.endpoint: http://service.cn.maxcompute.aliyun-inc.com/api
spark.hadoop.odps.moye.trackurl.host: http://jobview.odps.aliyun.com

步骤三 编写Spark Application

因为此Demo是冒烟意图,所以我们已经有一个写好了的SparkPi供客户直接使用

git clone git@github.com:aliyun/aliyun-cupid-sdk.git
cd aliyun-cupid-sdk
git checkout -b 3.3.3-public -t origin/3.3.3-public
cd spark/spark-2.x/spark-examples/
mvn clean package

# 编译完成后 以下jar包就是可以直接用来提交
/path/to/aliyun-cupid-sdk/spark/spark-2.x/spark-examples/target/spark-examples_2.11-3.3.3-public-shaded.jar

步骤四 spark-submit 提交作业

cd ${SPARK_HOME}
bin/spark-submit --master yarn-cluster \
                          --class com.aliyun.odps.spark.examples.SparkPi \
                          /path/to/aliyun-cupid-sdk/spark/spark-2.x/spark-examples/target/spark-examples_2.11-3.3.3-public-shaded.jar

# 正常提交我们可以看到两个URL

# logview MaxCompute内置的WebUI
http://logview.odps.aliyun.com/logview/?h=http://service.cn.maxcompute.aliyun.com/api&p=smoketest_ay20c&i=20190516110817581gbofkmim&token=RFZiMlNMUW5Ua2dUSHE5NkE5ZFRlUjRFTldJPSxPRFBTX09CTzoxNDM1NzcwMjYwMzQ2NTMxLDE1NTgyNjQwOTcseyJTdGF0ZW1lbnQiOlt7IkFjdGlvbiI6WyJvZHBzOlJlYWQiXSwiRWZmZWN0IjoiQWxsb3ciLCJSZXNvdXJjZSI6WyJhY3M6b2RwczoqOnByb2plY3RzL3Ntb2tldGVzdF9heTIwYy9pbnN0YW5jZXMvMjAxOTA1MTYxMTA4MTc1ODFnYm9ma21pbSJdfV0sIlZlcnNpb24iOiIxIn0=

# jobview Spark内置的WebUI
http://jobview.odps.aliyun.com/proxyview/jobview/?h=http://service.cn.maxcompute.aliyun-inc.com/api&p=smoketest_ay20c&i=20190516110817581gbofkmim&t=spark&id=application_1558004886350_754895007&metaname=20190516110817581gbofkmim&token=a2YxYnAraFVLbHVvM1poNjNHdDE5WThodFhFPSxPRFBTX09CTzoxNDM1NzcwMjYwMzQ2NTMxLDE1NTgyNjQxMzUseyJTdGF0ZW1lbnQiOlt7IkFjdGlvbiI6WyJvZHBzOlJlYWQiXSwiRWZmZWN0IjoiQWxsb3ciLCJSZXNvdXJjZSI6WyJhY3M6b2RwczoqOnByb2plY3RzL3Ntb2tldGVzdF9heTIwYy9pbnN0YW5jZXMvMjAxOTA1MTYxMTA4MTc1ODFnYm9ma21pbSJdfV0sIlZlcnNpb24iOiIxIn0=

这两个Url可以看到Spark作业的执行结果以及状态跟踪,至此,我们就非常简单的完成了Spark作业的提交。

技术支持

还是一句话,如果你想甩掉Spark集群的运维,并且以低成本高效的方式运行Spark服务,就来咨询我们团队吧!

用钉钉扫码咨询我们吧!

_

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
负载均衡 算法 关系型数据库
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
本文聚焦 MySQL 集群架构中的负载均衡算法,阐述其重要性。详细介绍轮询、加权轮询、最少连接、加权最少连接、随机、源地址哈希等常用算法,分析各自优缺点及适用场景。并提供 Java 语言代码实现示例,助力直观理解。文章结构清晰,语言通俗易懂,对理解和应用负载均衡算法具有实用价值和参考价值。
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
|
11月前
|
机器学习/深度学习 存储 算法
Java 大视界 -- Java 大数据在智能农业无人机植保作业路径规划与药效评估中的应用(165)
本文围绕 Java 大数据在智能农业无人机植保作业路径规划与药效评估中的应用展开,剖析作业现状与挑战,阐述技术原理及应用方法,结合案例与代码,给出具有实操性的解决方案。
Java 大视界 -- Java 大数据在智能农业无人机植保作业路径规划与药效评估中的应用(165)
|
负载均衡 算法 关系型数据库
大数据新视界--大数据大厂之MySQL数据库课程设计:MySQL集群架构负载均衡故障排除与解决方案
本文深入探讨 MySQL 集群架构负载均衡的常见故障及排除方法。涵盖请求分配不均、节点无法响应、负载均衡器故障等现象,介绍多种负载均衡算法及故障排除步骤,包括检查负载均衡器状态、调整算法、诊断修复节点故障等。还阐述了预防措施与确保系统稳定性的方法,如定期监控维护、备份恢复策略、团队协作与知识管理等。为确保 MySQL 数据库系统高可用性提供全面指导。
|
人工智能 分布式计算 调度
打破资源边界、告别资源浪费:ACK One 多集群Spark和AI作业调度
ACK One多集群Spark作业调度,可以帮助您在不影响集群中正在运行的在线业务的前提下,打破资源边界,根据各集群实际剩余资源来进行调度,最大化您多集群中闲置资源的利用率。
zdl
|
消息中间件 运维 大数据
大数据实时计算产品的对比测评:实时计算Flink版 VS 自建Flink集群
本文介绍了实时计算Flink版与自建Flink集群的对比,涵盖部署成本、性能表现、易用性和企业级能力等方面。实时计算Flink版作为全托管服务,显著降低了运维成本,提供了强大的集成能力和弹性扩展,特别适合中小型团队和业务波动大的场景。文中还提出了改进建议,并探讨了与其他产品的联动可能性。总结指出,实时计算Flink版在简化运维、降低成本和提升易用性方面表现出色,是大数据实时计算的优选方案。
zdl
768 56
|
存储 分布式计算 调度
Spark Master HA 主从切换过程不会影响到集群已有作业的运行, 为什么?
Spark Master 的高可用性(HA)机制确保主节点故障时,备用主节点能无缝接管集群管理,保障稳定运行。关键在于: 1. **Driver 和 Executor 独立**:任务执行不依赖 Master。 2. **应用状态保持**:备用 Master 通过 ZooKeeper 恢复集群状态。 3. **ZooKeeper 协调**:快速选举新 Master 并同步状态。 4. **容错机制**:任务可在其他 Executor 上重新调度。 这些特性保证了集群在 Master 故障时仍能正常运行。
|
SQL 分布式计算 DataWorks
MaxCompute MaxFrame评测 | 分布式Python计算服务MaxFrame(完整操作版)
在当今数字化迅猛发展的时代,数据信息的保存与分析对企业决策至关重要。MaxCompute MaxFrame是阿里云自研的分布式计算框架,支持Python编程接口、兼容Pandas接口并自动进行分布式计算。通过MaxCompute的海量计算资源,企业可以进行大规模数据处理、可视化数据分析及科学计算等任务。本文将详细介绍如何开通MaxCompute和DataWorks服务,并使用MaxFrame进行数据操作。包括创建项目、绑定数据源、编写PyODPS 3节点代码以及执行SQL查询等内容。最后,针对使用过程中遇到的问题提出反馈建议,帮助用户更好地理解和使用MaxFrame。
|
机器学习/深度学习 分布式计算 数据挖掘
MaxFrame 性能评测:阿里云MaxCompute上的分布式Pandas引擎
MaxFrame是一款兼容Pandas API的分布式数据分析工具,基于MaxCompute平台,极大提升了大规模数据处理效率。其核心优势在于结合了Pandas的易用性和MaxCompute的分布式计算能力,无需学习新编程模型即可处理海量数据。性能测试显示,在涉及`groupby`和`merge`等复杂操作时,MaxFrame相比本地Pandas有显著性能提升,最高可达9倍。适用于大规模数据分析、数据清洗、预处理及机器学习特征工程等场景。尽管存在网络延迟和资源消耗等问题,MaxFrame仍是处理TB级甚至PB级数据的理想选择。
385 6
|
分布式计算 大数据 数据处理
技术评测:MaxCompute MaxFrame——阿里云自研分布式计算框架的Python编程接口
随着大数据和人工智能技术的发展,数据处理的需求日益增长。阿里云推出的MaxCompute MaxFrame(简称“MaxFrame”)是一个专为Python开发者设计的分布式计算框架,它不仅支持Python编程接口,还能直接利用MaxCompute的云原生大数据计算资源和服务。本文将通过一系列最佳实践测评,探讨MaxFrame在分布式Pandas处理以及大语言模型数据处理场景中的表现,并分析其在实际工作中的应用潜力。
633 2
|
SQL 存储 大数据
单机顶集群的大数据技术来了
大数据时代,分布式数仓如MPP成为热门技术,但其高昂的成本让人望而却步。对于多数任务,数据量并未达到PB级,单体数据库即可胜任。然而,由于SQL语法的局限性和计算任务的复杂性,分布式解决方案显得更为必要。esProc SPL作为一种开源轻量级计算引擎,通过高效的算法和存储机制,实现了单机性能超越集群的效果,为低成本、高效能的数据处理提供了新选择。