Spark SQL DataFrame查询和输出函数一文详解运用与方法

简介: Spark SQL DataFrame查询和输出函数一文详解运用与方法

前言


配置的虚拟机为Centos6.7系统,hadoop版本为2.6.0版本,先前已经完成搭建CentOS部署Hbase、CentOS6.7搭建Zookeeper和编写MapReduce前置插件Hadoop-Eclipse-Plugin 安装。在此基础上完成了Hive详解以及CentOS下部署Hive和Mysql和Spark框架在CentOS下部署搭建。Spark的组件Spark SQL的部署:Spark SQL CLI部署CentOS分布式集群Hadoop上方法。


配置JDK1.8、Scala11.12

本文将介绍DataFrame基础操作以及实例运用,重点介绍直接在DataFrame对象上查询的方法。


DataFrame查询操作


第一种方法是将DataFrame注册成为临时表,通过SQL语句进行查询。

第二种方法是直接在DataFrame对象上进行查询,DataFrame的查询操作也是一个懒操作,只有触发Action操作才会进行计算并返回结果。

DataFrame常用查询结果:


方法 描述
where 条件查询
select/selectExpr/col/apply 查询指定字段的数据信息
limit 查询前n行记录
order by 排序查询
group by 分组查询
join 连接查询


对于连接查询有两份数据用户对电影评分数据ratings.dat和用户的基本信息数据users.dat。

ratings.dat4个字段分别为:UserID,MovieID,Rating,Timestamp

20210420100031277.png

users.dat5个字段分别为:UserID,Gender,Age,Occupation,Zip-code

20210420100048465.png

首先将文件导入,创建两个case class:

20210420100922491.png

20210420102602951.png


(一不小心敲错了几下~)


1.条件查询


(1)where

DataFrame可以使用where(conditionExpr:String)根据指定条件进行查询,参数中可以使用and或or,该方法的返回结果仍为DataFrame类型。

20210420103321486.png


(2)filter

filter和where使用方法一样。

20210420103600319.png


2.查询指定字段的数据信息


(1)select:获取指定字段值

select方法根据传入的string类型字段名获取指定字段的值,以DataFrame类型返回。

20210420104055131.png


(2)selectExpr:对指定字段进行特殊处理

selectExpr可对字段的名称进行替换也可对字段对于的数值进行替换,原表不变:


20210420105148621.png


基本看一眼程序就知道是干什么的,很简单。


(3)col/apply

col或者apply也可以获取DataFrame指定字段,但是只能获取一个字段,并且返回对象为Column类型。

20210420110121841.png

3.limit


limit方法获取指定DataFrame的前n行记录,得到一个新的DataFrame对象。不同于take与head,limit方法不是Action操作。

20210420110541239.png

4.orderBy/sort


orderBy方法是根据指定字段排序,默认为升序排序。若是降序可以用三种方法来表示


orderBy(desc.("userId"))

orderBy($"userId".desc)

orderBy(-user("userId"))


20210420111344192.png


sort方法和orderBy方法一样


20210420111714848.png


5.groupBy


groupBy方法是根据字段进行分组操作,groupBy方法有两种调用方式,可以传入String类型的字段名,也可传入Column类型的对象。groupBy返回的是 RelationalGroupedDataset 对象。

GroupedData常用方法


image.png


agg(expers:column*) 返回dataframe类型 。

20210420112824690.png

20210420121118126.png


20210420121227935.png


6.join


join可连接两个表进行操作,数据库常用函数。

join常用方法:


image.png


spark2.x版本中默认不支持笛卡尔积操作。通过参数spark.sql.crossJoin.enabled开启,方式如下:


spark.conf.set("spark.sql.crossJoin.enabled", "true")

 

20210420221504803.png

20210420221614399.png

20210420222324658.png


DataFrame输出操作


DataFrame API在提供了很多输出操作方法.save方法可以将DataFrame保存成文件,save操作有一个可选参数SaveMode,用这个参数可以指定如何处理数据已经存在的情况。另外,在使用HiveContext的时候,DataFrame可以用saveAsTable方法将数据保存成持久化的表。与registerTempTable不同,saveAsTable会将DataFrame的实际内容保存下来,并且在HiveMetastore中创建一个游标指针。持久化的表会一直保存,即使spark程序重启也没有影响,只要连接到同一个metastore就可以读取其数据。读取持久化表示,只需要用表明作为参数,调用SQLContext.table方法即可得到对应的DataFrame。


将DataFrame保存到同一个文件里面有两种方法。


(1)首先创建一个Map对象,用于存储一些save函数需要用到的一些数据,这里将指定保存文件路径及JSON文件的头信息

20210420230441437.png(2)从DataFrame对象中选择出userId、gender和age


20210420230639664.png

(3)调用save函数保存(2)中的DataFrame数据到copyOfUser.json文件夹中


20210420231348680.png

要加载SaveMode需要先加载SQLContext


20210420231444644.png

mode函数可以接收的参数有Overwrite、Append、Ignore和ErrorIfExists。


Overwirte代表覆盖目录之前就存在的数据,Append代表给指导目录下追加数据,Ignore代表如果目录下已经有的文件,那就什么都不执行,ErrorIfExits代表如果保存目录下存在的文件,那么跑出相应的异常。


20210420232458213.png方法二为直接调用save方法

20210420234549654.png


目录
相关文章
|
11月前
|
SQL JSON 分布式计算
Spark SQL架构及高级用法
Spark SQL基于Catalyst优化器与Tungsten引擎,提供高效的数据处理能力。其架构涵盖SQL解析、逻辑计划优化、物理计划生成及分布式执行,支持复杂数据类型、窗口函数与多样化聚合操作,结合自适应查询与代码生成技术,实现高性能大数据分析。
779 2
|
SQL 数据采集 关系型数据库
实现MySQL与SQL Server之间数据迁移的有效方法
总的来说,从MySQL到SQL Server的数据迁移是一个涉及到很多步骤的过程,可能会遇到各种问题和挑战。但只要精心规划、仔细执行,这个任务是完全可以完成的。
749 18
|
SQL Java 数据库连接
Java中实现SQL分页的方法
无论何种情况,选择适合自己的,理解了背后的工作原理,并能根据实际需求灵活变通的方式才是最重要的。
304 9
|
SQL 关系型数据库 MySQL
【MySQL】SQL分析的几种方法
以上就是SQL分析的几种方法。需要注意的是,这些方法并不是孤立的,而是相互关联的。在实际的SQL分析中,我们通常需要结合使用这些方法,才能找出最佳的优化策略。同时,SQL分析也需要对数据库管理系统,数据,业务需求有深入的理解,这需要时间和经验的积累。
458 12
|
SQL 关系型数据库 MySQL
大数据新视界--大数据大厂之MySQL数据库课程设计:MySQL 数据库 SQL 语句调优方法详解(2-1)
本文深入介绍 MySQL 数据库 SQL 语句调优方法。涵盖分析查询执行计划,如使用 EXPLAIN 命令及理解关键指标;优化查询语句结构,包括避免子查询、减少函数使用、合理用索引列及避免 “OR”。还介绍了索引类型知识,如 B 树索引、哈希索引等。结合与 MySQL 数据库课程设计相关文章,强调 SQL 语句调优重要性。为提升数据库性能提供实用方法,适合数据库管理员和开发人员。
|
SQL 数据库连接 Linux
数据库编程:在PHP环境下使用SQL Server的方法。
看看你吧,就像一个调皮的小丑鱼在一片广阔的数据库海洋中游弋,一路上吞下大小数据如同海中的珍珠。不管有多少难关,只要记住这个流程,剩下的就只是探索未知的乐趣,沉浸在这个充满挑战的数据库海洋中。
507 16
|
SQL 分布式计算 资源调度
Dataphin功能Tips系列(48)-如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列
如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列
502 4
|
SQL 分布式计算 Java
Spark SQL向量化执行引擎框架Gluten-Velox在AArch64使能和优化
本文摘自 Arm China的工程师顾煜祺关于“在 Arm 平台上使用 Native 算子库加速 Spark”的分享,主要内容包括以下四个部分: 1.技术背景 2.算子库构成 3.算子操作优化 4.未来工作
2191 0
|
SQL 存储 数据库
SQL Server函数与存储过程 计算时间
SQL Server函数与存储过程 计算时间 一、通过一个开始时间、结束时间计算出一个工作日天数(不包含工作日与节假日);   1、函数 --创建函数,参数 @bengrq 开始时间,@endrq 结束时间 create function [dbo].
2019 0
|
SQL 存储 Perl
PL/SQL函数和存储过程
前言 活到老,学到老。 基本概念 --ORACLE 提供可以把PL/SQL 程序存储在数据库中,并可以在任何地方来运行它。这样就叫存储过程或函数。过程和函数统称为PL/SQL子程序,他们是被命名的PL/SQL块,均存储在数据库中,并通过输入、输出参数或输入/输出参数与其调用者交换信息。
1612 0