Spark SQL DataFrame查看函数一文详解运用与方法

简介: Spark SQL DataFrame查看函数一文详解运用与方法

前言


配置的虚拟机为Centos6.7系统,hadoop版本为2.6.0版本,先前已经完成搭建CentOS部署Hbase、CentOS6.7搭建Zookeeper和编写MapReduce前置插件Hadoop-Eclipse-Plugin 安装。在此基础上完成了Hive详解以及CentOS下部署Hive和Mysql和Spark框架在CentOS下部署搭建。Spark的组件Spark SQL的部署:Spark SQL CLI部署CentOS分布式集群Hadoop上方法。


配置JDK1.8、Scala11.12


本文将介绍DataFrame基础操作以及实例运用


DataFrame查看数据


Spark DataFrame常用操作函数或方法


函数或方法 描述
printSchema 打印数据模式
show 查看数据
first/head/take/takeAsList 获取若干行数据
collect/collectAsList 获取所有数据


下面将:

20210418231740755.png

化为DataFrame进行操作:

20210418231824274.png


1.printSchema:打印数据模式


查看数据模式可以通过printSchema函数来查看,它会答应后出列的名称和类型。


20210418232324103.png

2.show:查看数据


show相关方法


image.png


show():


20210418233922781.png

show(5):

image.png


show(false):

20210418234112449.png


3.first/head/take/takeAsList:获取若干行记录


DataFrame获取若干行记录的方法:


方法 解释
first 获取第一行记录
head(n:Int) 获取前n行记录
take(n:Int) 获取前n行记录
takeAsList(n:Int) 获取前n行数据,并以List的形式展现


first和head功能相同,以Row或者Array[Row]的形式返回一行或多行数据。


20210418234837916.png

2021041823491296.png

take和takeAsList方法会将获得的数据返回到Driver端:

20210418235051426.png

4.collect/collectAsList获取所有函数


collect方法可以将DataFrame中的所有数据都获取到,并返回一个Array对象,collectAsList方法可以获取所有数据到List:

2021041823541486.png

20210418235502215.png

目录
相关文章
|
5月前
|
SQL JSON 分布式计算
Spark SQL架构及高级用法
Spark SQL基于Catalyst优化器与Tungsten引擎,提供高效的数据处理能力。其架构涵盖SQL解析、逻辑计划优化、物理计划生成及分布式执行,支持复杂数据类型、窗口函数与多样化聚合操作,结合自适应查询与代码生成技术,实现高性能大数据分析。
|
4月前
|
SQL 人工智能 数据挖掘
如何在`score`表中正确使用`COUNT`和`AVG`函数?SQL聚合函数COUNT与AVG使用指南
本文三桥君通过score表实例解析SQL聚合函数COUNT和AVG的常见用法。详解COUNT(studentNo)、COUNT(score)、COUNT()的区别,以及AVG函数对数值/字符型字段的不同处理,特别指出AVG()是无效语法。实战部分提供6个典型查询案例及结果,包含创建表、插入数据的完整SQL代码。产品专家三桥君强调正确理解函数特性(如空值处理、字段类型限制)对数据分析的重要性,帮助开发者避免常见误区,提升查询效率。
288 0
|
9月前
|
SQL 分布式计算 资源调度
Dataphin功能Tips系列(48)-如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列
如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列
352 4
|
11月前
|
SQL 分布式计算 Java
Spark SQL向量化执行引擎框架Gluten-Velox在AArch64使能和优化
本文摘自 Arm China的工程师顾煜祺关于“在 Arm 平台上使用 Native 算子库加速 Spark”的分享,主要内容包括以下四个部分: 1.技术背景 2.算子库构成 3.算子操作优化 4.未来工作
1406 0
|
SQL Oracle 关系型数据库
SQL优化-使用联合索引和函数索引
在一次例行巡检中,发现一条使用 `to_char` 函数将日期转换为字符串的 SQL 语句 CPU 利用率很高。为了优化该语句,首先分析了 where 条件中各列的选择性,并创建了不同类型的索引,包括普通索引、函数索引和虚拟列索引。通过对比不同索引的执行计划,最终确定了使用复合索引(包含函数表达式)能够显著降低查询成本,提高执行效率。
214 3
|
SQL 数据库 数据库管理
数据库SQL函数应用技巧与方法
在数据库管理中,SQL函数是处理和分析数据的强大工具
|
SQL 数据库 索引
SQL中COUNT函数结合条件使用的技巧与方法
在SQL查询中,COUNT函数是一个非常常用的聚合函数,用于计算表中满足特定条件的记录数
2359 5
|
SQL JSON 分布式计算
【赵渝强老师】Spark SQL的数据模型:DataFrame
本文介绍了在Spark SQL中创建DataFrame的三种方法。首先,通过定义case class来创建表结构,然后将CSV文件读入RDD并关联Schema生成DataFrame。其次,使用StructType定义表结构,同样将CSV文件读入RDD并转换为Row对象后创建DataFrame。最后,直接加载带有格式的数据文件(如JSON),通过读取文件内容直接创建DataFrame。每种方法都包含详细的代码示例和解释。
312 0
|
SQL 关系型数据库 MySQL
SQL日期函数
SQL日期函数
236 0
|
SQL 分布式计算 大数据
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
288 0