开发者学堂课程【大数据 Spark 2020版(知识精讲与实战演练)第三阶段:SparkSQL 初体验_SQL 案例】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/690/detail/12038
SparkSQL 初体验_SQL 案例
有这样的一个案例,编写这样的一条 SQL 语句。
打开 idea,去创建一个新的方法,这个方法,我们叫做 test,一个测试方法。去创建 data frame intro,前面的内容我们直接给他复制过来,复制过来以后拿到这个 SOURCE RDD,我们不仅可以 to DS ,我们还可以 to DF,理应拿到的是就是一个 DF,拿到这个 DF 以后,我们就可以来进行相应的操作。
比如说,我们要先给他注册成一个临时表,为什么要注册一个临时表呢?想一想, SQL 语句怎么写,是不是 select 什么什么,From 什么什么,这个 from 该怎么想?
要在这个 DF 上进行查询,是不是要让这个 SQL 语句要有一个 from ?所以我们要创建一个表,怎么创建呢?
Create or replace。这个表名字叫做 person。
使用 spark 这样的一个入口来去进行查询,那么我们就可以直接在这边写。
"select name from person where age > 10 and age < 20")
我们通过这样的一条 SQL 语句,就实现了和刚才一样的功能,所以刚才我们写了这么多行代码,做到的功能和写一行代码是一样的,所以,很多时候这个 RQL 也是比较好用的,那么 spark RQL 这个方法
返回一个 data frame,拿到这个 data frame 以后就叫做 ResultDF,我们可以直接来进行相应的打印,Show 一下。
运行这个案例
打印出来的结果跟刚才的结果是一样的,说明代码也没有任何问题,这时,我们已经对整个的初体验部分做了简单的说明。