备案控制台

开发者社区大数据文章正文

Spark SQL实战(06)-RDD与DataFrame的互操作

2023-05-08 111

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 包含特定对象类型的 RDD 的schema。这种基于反射的方法可以使代码更简洁，在编写 Spark 应用程序时已知schema时效果很好

val spark = SparkSession.builder()

.master("local").appName("DatasetApp")

.getOrCreate()

Spark SQL支持两种不同方法将现有RDD转换为DataFrame：

1 反射推断

包含特定对象类型的 RDD 的schema。

这种基于反射的方法可以使代码更简洁，在编写 Spark 应用程序时已知schema时效果很好

val peopleRDD: RDD[String] = spark.sparkContext.textFile(

"/Users/javaedge/Downloads/sparksql-train/data/people.txt")

// RDD => DF

// RDD

val peopleDF: DataFrame = peopleRDD.map(_.split(","))

// RDD

.map(x => People(x(0), x(1).trim.toInt))

// DF

.toDF()

2 通过编程接口

构造一个schema，然后将其应用到现有的 RDD。

虽然这种方法更冗长，但它允许在运行时构造 Dataset，当列及其类型直到运行时才知道时很有用。

step1

val peopleRDD: RDD[String] = spark.sparkContext.textFile(

"/Users/javaedge/Downloads/sparksql-train/data/people.txt")

// RDD

val peopleRowRDD: RDD[Row] = peopleRDD.map(_.split(","))

.map(x => Row(x(0), x(1).trim.toInt))

step2

val struct = StructType(

StructField("name", StringType, nullable = true) ::

StructField("age", IntegerType, nullable = false) :: Nil)

step3

使用SparkSession的createDataFrame方法将RDD转换为DataFrame

val peopleDF: DataFrame = spark.createDataFrame(peopleRowRDD, struct)

peopleDF.show()

文章标签：

分布式计算

SQL

Spark

关键词：

apache spark SQL

SQL实战

apache spark rdd

apache spark SQL DataFrame

apache spark Dataframe

javaedge

目录

相关文章

郑小健

|

2月前

|

分布式计算大数据 Apache

ClickHouse与大数据生态集成：Spark & Flink 实战

【10月更文挑战第26天】在当今这个数据爆炸的时代，能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统，ClickHouse 在大数据分析领域展现出了卓越的能力。然而，为了充分利用ClickHouse的优势，将其与现有的大数据处理框架（如Apache Spark和Apache Flink）进行集成变得尤为重要。本文将从我个人的角度出发，探讨如何通过这些技术的结合，实现对大规模数据的实时处理和分析。

郑小健

214 2 3

ClickHouse与大数据生态集成：Spark & Flink 实战

技术小达人

|

8天前

|

SQL 分布式计算 Java

Spark SQL向量化执行引擎框架Gluten-Velox在AArch64使能和优化

本文摘自 Arm China的工程师顾煜祺关于“在 Arm 平台上使用 Native 算子库加速 Spark”的分享，主要内容包括以下四个部分： 1.技术背景 2.算子库构成 3.算子操作优化 4.未来工作

技术小达人

35 0 0

赵渝强老师

|

2月前

|

SQL JSON 分布式计算

【赵渝强老师】Spark SQL的数据模型：DataFrame

本文介绍了在Spark SQL中创建DataFrame的三种方法。首先，通过定义case class来创建表结构，然后将CSV文件读入RDD并关联Schema生成DataFrame。其次，使用StructType定义表结构，同样将CSV文件读入RDD并转换为Row对象后创建DataFrame。最后，直接加载带有格式的数据文件（如JSON），通过读取文件内容直接创建DataFrame。每种方法都包含详细的代码示例和解释。

赵渝强老师

65 0 0

武子康

|

3月前

|

SQL 分布式计算大数据

大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程（一）

大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程（一）

武子康

115 0 0

热烈的马

|

8月前

|

SQL 分布式计算数据库

【大数据技术Spark】Spark SQL操作Dataframe、读写MySQL、Hive数据库实战（附源码）

【大数据技术Spark】Spark SQL操作Dataframe、读写MySQL、Hive数据库实战（附源码）

热烈的马

345 0 0

热烈的马

|

8月前

|

SQL 分布式计算大数据

【大数据技术Hadoop+Spark】Spark SQL、DataFrame、Dataset的讲解及操作演示（图文解释）

【大数据技术Hadoop+Spark】Spark SQL、DataFrame、Dataset的讲解及操作演示（图文解释）

热烈的马

187 0 0

武子康

|

3月前

|

SQL 分布式计算大数据

大数据-94 Spark 集群 SQL DataFrame & DataSet & RDD 创建与相互转换 SparkSQL

大数据-94 Spark 集群 SQL DataFrame & DataSet & RDD 创建与相互转换 SparkSQL

武子康

116 0 0

wljslmz

|

5月前

|

SQL 存储分布式计算

如何使用 Spark SQL 从 DataFrame 查询数据？

【8月更文挑战第13天】

wljslmz

185 4 4

Maynor

|

8月前

|

SQL 分布式计算数据挖掘

Spark_Day07：Spark SQL(DataFrame是什么和数据分析（案例讲解）)

Spark_Day07：Spark SQL(DataFrame是什么和数据分析（案例讲解）)

Maynor

188 0 0

让线程再跑一会

|

8月前

|

SQL 分布式计算关系型数据库

Spark【Spark SQL（二）RDD转换DataFrame、Spark SQL读写数据库】

Spark【Spark SQL（二）RDD转换DataFrame、Spark SQL读写数据库】

让线程再跑一会

269 0 0

热门文章

最新文章

预编译为什么能防止SQL注入?

日志服务 SQL 引擎全新升级

如何在 Java 代码中使用 JSqlParser 解析复杂的 SQL 语句？

如何在Django中正确使用参数化查询或ORM来避免SQL注入漏洞？

SQL优化有绝招，使用DAS提升工作效率！完成任务可领取保暖手套！

【MySQL基础篇】全面学习总结SQL语法、DataGrip安装教程

Java使用sql查询mongodb

Flink SQL 详解：流批一体处理的强大工具

【潜意识Java】MyBatis中的动态SQL灵活、高效的数据库查询以及深度总结

除了使用Django的ORM，还能通过什么方式在Django中避免SQL注入漏洞？

ALTER TABLE 时的 SQL PRIMARY KEY 约束

MaxCompute操作报错合集之执行SQL Union All操作时，数据类型产生报错，该怎么解决

MaxCompute操作报错合集之在创建SQL函数时，遇到报错，该如何解决

MaxCompute操作报错合集之执行多条SQL语句时，使用同一个实例来运行，遇到报错，该如何解决

MaxCompute操作报错合集之使用sql查询一个表的分区数据时遇到报错，该如何解决

MaxCompute产品使用合集之怎么使用SQL查询来获取ODPS中所有的表及字段信息

SQL UNIQUE 约束

SQL NOT NULL 约束

SQL CREATE TABLE 语句

相关课程

更多

如何在 PolarDB-X 中优化慢 SQL

SQL完全自学手册

SQL Server on Linux入门教程

SQL入门与实践

数据库及SQL/MySQL基础

SQL进阶及查询

相关电子书

更多

SQL Server在电子商务中的应用与实践

GeoMesa on Spark SQL

原生SQL on Hadoop引擎- Apache HAWQ 2.x最新技术解密malili

相关实验场景

更多

PolarDB for AI：在数据库中通过SQL实现AI能力

玩转MaxCompute SQL! 30分钟搞定数据分析挖掘

使用SQL语句实现数据表管理

使用SQL语句实现数据插入、修改和删除操作

使用SQL语句实现数据查询操作

使用SQL语句管理索引

下一篇

阿里云oss简介和如何对接使用