Spark SQL DataFrame查看函数一文详解运用与方法

简介: Spark SQL DataFrame查看函数一文详解运用与方法

前言


配置的虚拟机为Centos6.7系统,hadoop版本为2.6.0版本,先前已经完成搭建CentOS部署Hbase、CentOS6.7搭建Zookeeper和编写MapReduce前置插件Hadoop-Eclipse-Plugin 安装。在此基础上完成了Hive详解以及CentOS下部署Hive和Mysql和Spark框架在CentOS下部署搭建。Spark的组件Spark SQL的部署:Spark SQL CLI部署CentOS分布式集群Hadoop上方法。


配置JDK1.8、Scala11.12


本文将介绍DataFrame基础操作以及实例运用


DataFrame查看数据


Spark DataFrame常用操作函数或方法


函数或方法 描述
printSchema 打印数据模式
show 查看数据
first/head/take/takeAsList 获取若干行数据
collect/collectAsList 获取所有数据


下面将:

20210418231740755.png

化为DataFrame进行操作:

20210418231824274.png


1.printSchema:打印数据模式


查看数据模式可以通过printSchema函数来查看,它会答应后出列的名称和类型。


20210418232324103.png

2.show:查看数据


show相关方法


image.png


show():


20210418233922781.png

show(5):

image.png


show(false):

20210418234112449.png


3.first/head/take/takeAsList:获取若干行记录


DataFrame获取若干行记录的方法:


方法 解释
first 获取第一行记录
head(n:Int) 获取前n行记录
take(n:Int) 获取前n行记录
takeAsList(n:Int) 获取前n行数据,并以List的形式展现


first和head功能相同,以Row或者Array[Row]的形式返回一行或多行数据。


20210418234837916.png

2021041823491296.png

take和takeAsList方法会将获得的数据返回到Driver端:

20210418235051426.png

4.collect/collectAsList获取所有函数


collect方法可以将DataFrame中的所有数据都获取到,并返回一个Array对象,collectAsList方法可以获取所有数据到List:

2021041823541486.png

20210418235502215.png

目录
相关文章
|
1月前
|
SQL 关系型数据库 MySQL
【MySQL】— —熟练掌握用SQL语句实现数据库和基本表的创建。熟练掌握MySQL的安装、客户端登录方法;熟练掌握MySQL的编码、数据类型等基础知识;掌握实体完整性的定义和维护方法、掌握参照完整性
【MySQL】— —熟练掌握用SQL语句实现数据库和基本表的创建。熟练掌握MySQL的安装、客户端登录方法;熟练掌握MySQL的编码、数据类型等基础知识;掌握实体完整性的定义和维护方法、掌握参照完整性
101 1
|
1月前
|
SQL 存储 BI
sql server 2012远程链接的方法及步骤
sql server 2012远程链接的方法及步骤
17 1
|
2天前
|
SQL 分布式计算 资源调度
一文解析 ODPS SQL 任务优化方法原理
本文重点尝试从ODPS SQL的逻辑执行计划和Logview中的执行计划出发,分析日常数据研发过程中各种优化方法背后的原理,覆盖了部分调优方法的分析,从知道怎么优化,到为什么这样优化,以及还能怎样优化。
|
30天前
|
SQL 存储 Python
Microsoft SQL Server 编写汉字转拼音函数
Microsoft SQL Server 编写汉字转拼音函数
|
1月前
|
SQL 存储 Kubernetes
Seata常见问题之mybatisplus的批量插入方法报SQL错误如何解决
Seata 是一个开源的分布式事务解决方案,旨在提供高效且简单的事务协调机制,以解决微服务架构下跨服务调用(分布式场景)的一致性问题。以下是Seata常见问题的一个合集
26 0
|
1月前
|
SQL 存储 Apache
在 Apache Flink SQL 中,并没有内置的 GROUP_CONCAT 函数
【2月更文挑战第16天】在 Apache Flink SQL 中,并没有内置的 GROUP_CONCAT 函数
190 2
|
1月前
|
SQL 存储 关系型数据库
MySQL 常用30种SQL查询语句优化方法
MySQL 常用30种SQL查询语句优化方法
74 0
|
2月前
|
SQL 存储
SQL Server基本函数
SQL Server基本函数
|
2月前
|
SQL 安全 关系型数据库
MySQL技能完整学习列表3、SQL语言基础——3、SQL运算符和函数
MySQL技能完整学习列表3、SQL语言基础——3、SQL运算符和函数
36 0
|
2月前
|
算法 关系型数据库 MySQL
浅谈postgre-sql uuid生成方法的细节
浅谈postgre-sql uuid生成方法的细节
27 0