Spark SQL概述及特点详解

简介: 笔记

一、Spark SQL概念


它主要用于结构化数据处理和对Spark数据执行类SQL的查询。通过Spark SQL,可以针对不同格式的数据执行ETL操作(如JSON,Parquet,数据库)然后完成特定的查询操作。一般来说,Spark每支持一种新的应用开发,都会引入一个新的Context及相应的RDD,对于SQL这一特性来说,引入的就是SQLContext和SchemaRDD。注意:在Spark1.3之后,SchemaRDD已经更名为DataFrame,但它本质就类似一个RDD,因为可以将DataFrame无缝的转换成一个RDD。


二、Spark SQL的特点


提供标准化的SQL支持和子查询支持

支持多种数据源: Hive、 RDD、Parquet、 JSON、 JDBC等。

多种性能优化技术: in memory columnar storage、byte code generation、cost model动态评估等。

组件扩展性:对于SQL的语法解析器、分析器以及优化器,用户都可以自已重新开发,并且动态扩展。


1、内存列存储(in-memory columnar storage)

内存列存储意味着,Spark SQL的数据,不是使用Java对象的方式来进行存储,而是使用面向列的内存存储的方式来进行存储。也就是说,每一列,作为一个数据存储的单位。从而大大优化了内存使用的效率。采用了内存列存储之后,减少了对内存的消耗,也就避免了gc大量数据的性能开销。


2、字节码生成技术(byte code generation)

Spartk SQL在其catalyst模块的expressions中增加了codegen模块,对于SQL语句中的计算表达式,比如select num +num from t这种的sql,就可以使用动态字节码生成技术来优化其性能。


3、Scala代码编写的优化

对于Scala代码编写中,可能会造成较大性能开销的地方,自己重写,使用更加复杂的方式,来获取更好的性能。比如Option样例类、for循 环、map/filter/foreach等高 阶函数,以及不可变对象,都改成了用null、while循 环等来实现,并且重用可变的对象。

25.png


三、Spark SQL 与 Hive 的区别


前面介绍了spark sql的基本概念,下面介绍一下Spark SQL 与 Hive 的区别。

什么是Spark SQL


Spark SQL是Spark中专门用来处理结构化数据(每一行数据都遵循Schema信息建表时表的字段及其类型)的一个模块

提供了 DataFrame/Dataset 的对分布式数据处理的基本抽象

其实之上是一个分布式的 SQL 引擎

什么是 Hive


数据仓库,能使用 SQL 读取、写入和管理存在于分布式存储架构上的大数据集

结构可以映射到已经存储的数据上

用户连接 Hive 可以使用命令行工具和 JDBC 驱动

两者的区别


都支持ThriftServer服务,为JDBC提供解决方案,区别如下:

Spark SQL


是Spark的一个库文件

Spark SQL 元数据可有可无

Spark SQL 中 schema 是自动推断的

支持标准 SQL 语句,也支持 HQL 语句等

从开发角度来讲,即支持SQL方式开发,也支持HQL开发,还支持函数式编程(DSL)实现SQL语句

Hive


是一个框架

Hive中必须有元数据,一般由 MySql 管理,必须开启 metastore 服务

Hive 中在建表时必须明确使用 DDL 声明 schema

只支持 HQL 语句

Hive:处理海量数据,比如一个月、一个季度、一年的数据量,依然可以处理,虽然很慢;

Spark SQL:这种情况下 Spark SQL 不支持,无法处理;



相关文章
|
2月前
|
SQL JSON 分布式计算
【赵渝强老师】Spark SQL的数据模型:DataFrame
本文介绍了在Spark SQL中创建DataFrame的三种方法。首先,通过定义case class来创建表结构,然后将CSV文件读入RDD并关联Schema生成DataFrame。其次,使用StructType定义表结构,同样将CSV文件读入RDD并转换为Row对象后创建DataFrame。最后,直接加载带有格式的数据文件(如JSON),通过读取文件内容直接创建DataFrame。每种方法都包含详细的代码示例和解释。
|
3月前
|
存储 分布式计算 算法
大数据-105 Spark GraphX 基本概述 与 架构基础 概念详解 核心数据结构
大数据-105 Spark GraphX 基本概述 与 架构基础 概念详解 核心数据结构
62 0
|
3月前
|
消息中间件 分布式计算 Kafka
大数据-98 Spark 集群 Spark Streaming 基础概述 架构概念 执行流程 优缺点
大数据-98 Spark 集群 Spark Streaming 基础概述 架构概念 执行流程 优缺点
51 0
|
3月前
|
SQL 分布式计算 大数据
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
80 0
|
3月前
|
SQL 分布式计算 算法
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(二)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(二)
95 0
|
3月前
|
SQL 分布式计算 Java
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
71 0
|
SQL 消息中间件 分布式计算
通过Spark SQL实时归档SLS数据
我在前一篇文章介绍过基于Spark SQL实现对HDFS操作的实时监控报警。今天,我再举例说明一下如何使用Spark SQL进行流式应用的开发。
2573 0
|
4月前
|
关系型数据库 MySQL 网络安全
5-10Can't connect to MySQL server on 'sh-cynosl-grp-fcs50xoa.sql.tencentcdb.com' (110)")
5-10Can't connect to MySQL server on 'sh-cynosl-grp-fcs50xoa.sql.tencentcdb.com' (110)")
|
6月前
|
SQL 存储 监控
SQL Server的并行实施如何优化?
【7月更文挑战第23天】SQL Server的并行实施如何优化?
136 13
|
6月前
|
SQL
解锁 SQL Server 2022的时间序列数据功能
【7月更文挑战第14天】要解锁SQL Server 2022的时间序列数据功能,可使用`generate_series`函数生成整数序列,例如:`SELECT value FROM generate_series(1, 10)。此外,`date_bucket`函数能按指定间隔(如周)对日期时间值分组,这些工具结合窗口函数和其他时间日期函数,能高效处理和分析时间序列数据。更多信息请参考官方文档和技术资料。