MaxComputeSpark Spark 与 SparkSQL 对比分析及使用注意事项 | 学习笔记

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 快速学习 MaxComputeSpark Spark 与 SparkSQL 对比分析及使用注意事项

开发者学堂课程【SaaS  模式云数据仓库系列课程 —— 2021数仓必修课MaxComputeSpark Spark  与  SparkSQL  对比分析及使用注意事项】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/55/detail/1052


MaxComputeSpark Spark  与  SparkSQL  对比分析及使用注意事项


内容简介:

一、功能特性

二、代码开发

三、DataWorks  模式

四、Q&A


一、功能特性

Spark  部署模式:

Spark on yarn

http://spark.apache.org/docs/latest/running-on-yarn.html

Spark onk8s

http://spark.apache.org/does/latest/running-on-kubernetes.html

Spark on  MaxCompute

https://github.com/aliyun/MaxCompute-Spark/wiki

支持的数据源:

Spark on yarn/k8s  限制条件

1.支持数据源操作的  jar  包是否存在

2.网络是否可打通:平台环境

云上网络环境:公网、经典网络、 VPC

Spark on  MaxCompute   限制条件

1.maxcompute  集群环境。支持访问  VPC、可申请访问公网

目前支持访问的数据源:  maxcompute 、oss、VPC  下的  ECS/RDS/redis  等

提交方式:

Local

1.和开源相同,涉及到读写  maxcompute  表时,会是  tunnel  方式来读写,本地spark-defaults. 

comp  中需要配置  tunnel endpoint。

2.会拉取表数据到本地,每次运行均会重新拉取;下载部分数据,可以在  SparkSqL  中指定分

区实现下。

Client

1.客户端不会启动  dirver

2.不再依赖  spark  客户端

Cluster

1.和开源相同

POM  文件:

注意事项:

1.spark  和  scala  版本

2.scope 配置:需要是 provided

参考示例:

 https://github.com/aliyun/MaxCompute-Spark/blob/master/spark-2.x/pom.zn

< properties >

<spark. version>2.3.0</spark. version>

<cupid. sdk. version>3.3.8-public</cupid. sdk. version>

<scala. version>2. 11.8</scala. version>

<scala. binary. version>2. 11</scala. binary. version></ properties >


二、代码开发

Tips:

建议使用  SparkSql ,不要使用 ODPSops

val spark s Spark Session

. builder()

. appliame("SparkSQL-on- HaxCompute ")

. config("spark-sal, broadcast Timeout","no""(")

. config("spark-sql. cross-loin, enabled", true)

. conflig("odps, exec, dynamic, partition, mode","nonstrict")

-config("spark-sql catalog[ updatentation ","~dps")-get0-create()

import spark. val rdf-spil(s"select+from muxing test _ 2018 _ total _ infor")

线上运行时 SparkSession 代码中参数写到spark节点

配置spark. hadoop. odps. runtime. end. point

# 

Spark施行环境endpoints,请配置为所在region的Mak(captte VTC内网Endpoints.

yearshadoopdaysruntinesendpoint “ http://service.cn-sarcompute.aliyurnic.com/got

引用 jar  资源使用  spark. hadoop. odbs. cupid. resources

Ispark hadoop. oops cupic,resources= projectname ×x0. jar.  projectnamexx1 . jar

< dependency >

<groupId>com. aliyun. odps</groupIdx

<artifact Id>cupid-sdk</artifact Id>

<version>${cupid. sdk. version}</version>

<scope>provided</scope>

</ dependency >

< dependency >

<groupId>com. aliyun. odps</groupId>

<artifact Id>hadoop-fs-oss</artifact Id>

<version>${cupid. sdk. version}</version>

</ dependency >

< dependency >

<groupId>com. aliyun. odps</groupId>

< artifactId >odps-spark-database _5(scala. binary. version)</ artifact1d ><version>${cupid. sdk. version}</version>

</ dependency >


三、DataWorks  模式

操作流程(操作演示):

1.创建  spark 节点

2.配置节点参数

3.测试运行

4.提交发布

Tips:

1.通过参数配置实现带入参数到 spark  程序

2.简单模式和标准模式下发布有差异


四、Q&A

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
相关文章
|
7月前
|
机器学习/深度学习 分布式计算 算法
Spark快速大数据分析PDF下载读书分享推荐
《Spark快速大数据分析》适合初学者,聚焦Spark实用技巧,同时深入核心概念。作者团队来自Databricks,书中详述Spark 3.0新特性,结合机器学习展示大数据分析。Spark是大数据分析的首选工具,本书助你驾驭这一利器。[PDF下载链接][1]。 ![Spark Book Cover][2] [1]: https://zhangfeidezhu.com/?p=345 [2]: https://i-blog.csdnimg.cn/direct/6b851489ad1944548602766ea9d62136.png#pic_center
228 1
Spark快速大数据分析PDF下载读书分享推荐
|
4月前
|
SQL 分布式计算 Serverless
EMR Serverless Spark:一站式全托管湖仓分析利器
本文根据2024云栖大会阿里云 EMR 团队负责人李钰(绝顶) 演讲实录整理而成
244 2
|
4月前
|
分布式计算 大数据 Spark
大数据-95 Spark 集群 SparkSQL Action与Transformation操作 详细解释与测试案例(二)
大数据-95 Spark 集群 SparkSQL Action与Transformation操作 详细解释与测试案例(二)
64 1
|
4月前
|
设计模式 数据采集 分布式计算
企业spark案例 —出租车轨迹分析
企业spark案例 —出租车轨迹分析
146 0
|
4月前
|
SQL 分布式计算 大数据
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
131 0
|
4月前
|
SQL 分布式计算 算法
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(二)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(二)
125 0
|
4月前
|
SQL 分布式计算 Java
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
105 0
|
4月前
|
存储 SQL 分布式计算
大数据-95 Spark 集群 SparkSQL Action与Transformation操作 详细解释与测试案例(一)
大数据-95 Spark 集群 SparkSQL Action与Transformation操作 详细解释与测试案例(一)
68 0
|
4月前
|
SQL 分布式计算 大数据
大数据-94 Spark 集群 SQL DataFrame & DataSet & RDD 创建与相互转换 SparkSQL
大数据-94 Spark 集群 SQL DataFrame & DataSet & RDD 创建与相互转换 SparkSQL
134 0
|
4月前
|
SQL 存储 分布式计算
大数据-93 Spark 集群 Spark SQL 概述 基本概念 SparkSQL对比 架构 抽象
大数据-93 Spark 集群 Spark SQL 概述 基本概念 SparkSQL对比 架构 抽象
72 0