开发者学堂课程【大数据 Spark 2020版(知识精讲与实战演练)第三阶段:有类型转换_集合操作】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/690/detail/12074
有类型转换_集合操作
接下来讲解集合操作,集合操作相对来说也是比较简单的,集合操作其实是集合之间的那三个比较常见的操作,一个是交集,一个是并集,还有一个是差集,再说一个 limit, limit 是限制的意思。
接下来看一下这个集合的操作,进入了 idea 当中,然后创建一个新的方法,命名为 collection。
def collection(): Unit = {
val ds1 = spark.range( 1,10)
val ds2 = spark.range( 5,14)
//1.差集
ds1.except(ds2).show()
//在 ds1 中所有的数据,除掉 ds2 里面有的数据的结果
//2.交集
ds1.intersect(ds2).show()
//在 ds1 和 ds2 中都有的数据
//3.并集
ds1.union(ds2).show()
//在 ds1 和 ds2 中全部的数据
//limit
ds1.limit(3).show()
//一共 9 条数据,可以限制输出为 3 条
scala 当中也有 except,也有 intersept,有 union 也有 limit,所以它们都是一样的,这些算子其实都在仿照这个 scala 来进行的。
运行一下这个操作,结果能看到第一个是差集,dS1 和 dS2 之间的差集就是 1、2、3、4 四个数字,
然后交集是 5、6、7、8、9 五个数字,并集就是 1、2、3、4、5、6、7、8、9,并集其实是允许重复的。最终 limit 就是打印出来三条数据 1、2、3。
以上就是集合上的一个操作,还有一个虽然不属于集合操作,但其实也是作用于结果集的一个操作。