MaxComputeSpark Spark 与 SparkSQL 对比分析及使用注意事项

MaxComputeSpark Spark 与 SparkSQL 对比分析及使用注意事项 | 学习笔记

2021-12-19 305

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

简介： 快速学习 MaxComputeSpark Spark 与 SparkSQL 对比分析及使用注意事项

开发者学堂课程【SaaS 模式云数据仓库系列课程 —— 2021数仓必修课：MaxComputeSpark Spark 与 SparkSQL 对比分析及使用注意事项】学习笔记，与课程紧密联系，让用户快速学习知识。

课程地址：https://developer.aliyun.com/learning/course/55/detail/1052

MaxComputeSpark Spark 与 SparkSQL 对比分析及使用注意事项

内容简介：

一、功能特性

二、代码开发

三、DataWorks 模式

四、Q&A

一、功能特性

Spark 部署模式：

Spark on yarn

http://spark.apache.org/docs/latest/running-on-yarn.html

Spark onk8s

http://spark.apache.org/does/latest/running-on-kubernetes.html

Spark on MaxCompute

https://github.com/aliyun/MaxCompute-Spark/wiki

支持的数据源：

Spark on yarn/k8s 限制条件

1.支持数据源操作的 jar 包是否存在

2.网络是否可打通：平台环境

云上网络环境：公网、经典网络、 VPC

Spark on MaxCompute 限制条件

1.maxcompute 集群环境。支持访问 VPC、可申请访问公网

目前支持访问的数据源： maxcompute 、oss、VPC 下的 ECS／RDS／redis 等

提交方式：

Local

1.和开源相同，涉及到读写 maxcompute 表时，会是 tunnel 方式来读写，本地spark－defaults.　

comp 中需要配置 tunnel endpoint。

2.会拉取表数据到本地，每次运行均会重新拉取；下载部分数据，可以在 SparkSqL 中指定分

区实现下。

Client

1.客户端不会启动 dirver

2.不再依赖 spark 客户端

Cluster

1.和开源相同

POM 文件：

注意事项：

1.spark 和 scala 版本

2.scope 配置：需要是 provided

参考示例:

https://github.com/aliyun/MaxCompute-Spark/blob/master/spark-2.x/pom.zn

< properties >

<spark. version>2.3.0</spark. version>

<cupid. sdk. version>3.3.8-public</cupid. sdk. version>

<scala. version>2. 11.8</scala. version>

<scala. binary. version>2. 11</scala. binary. version></ properties >

二、代码开发

Tips:

建议使用 SparkSql ，不要使用 ODPSops

val spark s Spark Session

. builder()

. appliame("SparkSQL-on- HaxCompute ")

. config("spark-sal, broadcast Timeout","no""(")

. config("spark-sql. cross-loin, enabled", true)

. conflig("odps, exec, dynamic, partition, mode","nonstrict")

-config("spark-sql catalog[ updatentation ","~dps")-get0-create()

import spark. val rdf-spil(s"select+from muxing test _ 2018 _ total _ infor")

线上运行时 SparkSession 代码中参数写到spark节点

配置spark.　hadoop.　odps.　runtime.　end.　point

Spark施行环境endpoints，请配置为所在region的Mak（captte　VTC内网Endpoints.

yearshadoopdaysruntinesendpoint “ http://service.cn-sarcompute.aliyurnic.com/got

引用 jar 资源使用 spark.　hadoop.　odbs.　cupid.　resources

Ispark hadoop. oops cupic,resources= projectname ×x0. jar. projectnamexx1 . jar

< dependency >

<groupId>com. aliyun. odps</groupIdx

<artifact Id>cupid-sdk</artifact Id>

<version>${cupid. sdk. version}</version>

<scope>provided</scope>

</ dependency >

< dependency >

<groupId>com. aliyun. odps</groupId>

<artifact Id>hadoop-fs-oss</artifact Id>

<version>${cupid. sdk. version}</version>

</ dependency >

< dependency >

<groupId>com. aliyun. odps</groupId>

< artifactId >odps-spark-database _5(scala. binary. version)</ artifact1d ><version>${cupid. sdk. version}</version>

</ dependency >

三、DataWorks 模式

操作流程（操作演示）：

1.创建 spark 节点

2.配置节点参数

3.测试运行

4.提交发布

Tips:

1.通过参数配置实现带入参数到 spark 程序

2.简单模式和标准模式下发布有差异

四、Q&A

相关实践学习

基于MaxCompute的热门话题分析

本实验围绕社交用户发布的文章做了详尽的分析，通过分析能得到用户群体年龄分布，性别分布，地理位置分布，以及热门话题的热度。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

MaxComputeSpark Spark 与 SparkSQL 对比分析及使用注意事项 | 学习笔记

MaxComputeSpark Spark 与 SparkSQL 对比分析及使用注意事项

一、功能特性

二、代码开发

三、DataWorks 模式

四、Q&A

阿里云开发者学堂

热门文章

最新文章

相关课程

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

MaxComputeSpark Spark 与 SparkSQL 对比分析及使用注意事项 | 学习笔记

MaxComputeSpark Spark 与 SparkSQL 对比分析及使用注意事项

一、功能特性

二、代码开发

三、DataWorks 模式

四、Q&A

阿里云开发者学堂

热门文章

最新文章

相关课程

相关电子书