大数据进阶之路——Spark SQL 之 DataFrame&&Dataset

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 文章目录dataframe 和 rddAPI常用操作DataFrame和RDD案例DataSet

DataFrame它不是Spark SQL提出的,而是早起在R、Pandas语言就已经有了的。

A Dataset is a distributed collection of data:分布式的数据集


A DataFrame is a Dataset organized into named columns.

以列(列名、列的类型、列值)的形式构成的分布式数据集,按照列赋予不同的名称


dataframe 和 rdd

DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表格。DataFrame引入了schema。

image.png

image.png

API常用操作

package org.example
import org.apache.spark.sql.SparkSession
object DataFrameApp {
  def main(args: Array[String]) {
    val spark = SparkSession.builder().appName("DataFrameApp").master("local[2]").getOrCreate()
    // 将json文件加载成一个dataframe
    val peopleDF = spark.read.format("json").load("people.json")
    // 输出dataframe对应的schema信息
    peopleDF.printSchema()
    // 输出数据集的前20条记录
    peopleDF.show()
    //查询某列所有的数据: select name from table
    peopleDF.select("name").show()
    // 查询某几列所有的数据,并对列进行计算: select name, age+10 as age2 from table
    peopleDF.select(peopleDF.col("name"), (peopleDF.col("age") + 10).as("age2")).show()
    //根据某一列的值进行过滤: select * from table where age>19
    peopleDF.filter(peopleDF.col("age") > 19).show()
    //根据某一列进行分组,然后再进行聚合操作: select age,count(1) from table group by age
    peopleDF.groupBy("age").count().show()
    spark.stop()
  }
}
root
 |-- age: long (nullable = true)
 |-- name: string (nullable = true)
+----+-------+
| age|   name|
+----+-------+
|null|Michael|
|  30|   Andy|
|  19| Justin|
+----+-------+
+-------+
|   name|
+-------+
|Michael|
|   Andy|
| Justin|
+-------+
+-------+----+
|   name|age2|
+-------+----+
|Michael|null|
|   Andy|  40|
| Justin|  29|
+-------+----+
+---+----+
|age|name|
+---+----+
| 30|Andy|
+---+----+
+----+-----+
| age|count|
+----+-----+
|  19|    1|
|null|    1|
|  30|    1|
+----+-----+

DataFrame和RDD

package org.example
import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}
import org.apache.spark.sql.{Row, SparkSession}
object DataFrameRDDApp {
  def main(args: Array[String]) {
    val spark = SparkSession.builder().appName("DataFrameRDDApp").master("local[2]").getOrCreate()
    //inferReflection(spark)
    program(spark)
    spark.stop()
  }
  def program(spark: SparkSession): Unit = {
    // RDD ==> DataFrame
    val rdd = spark.sparkContext.textFile("infos.txt")
    val infoRDD = rdd.map(_.split(",")).map(line => Row(line(0).toInt, line(1), line(2).toInt))
    val structType = StructType(Array(StructField("id", IntegerType, true),
      StructField("name", StringType, true),
      StructField("age", IntegerType, true)))
    val infoDF = spark.createDataFrame(infoRDD, structType)
    infoDF.printSchema()
    infoDF.show()
    //通过df的api进行操作
    infoDF.filter(infoDF.col("age") > 70).show
    //通过sql的方式进行操作
    infoDF.createOrReplaceTempView("infos")
    spark.sql("select * from infos where age > 70").show()
  }
  def inferReflection(spark: SparkSession) {
    // RDD ==> DataFrame
    val rdd = spark.sparkContext.textFile("infos.txt")
    //注意:需要导入隐式转换
    import spark.implicits._
    val infoDF = rdd.map(_.split(",")).map(line => Info(line(0).toInt, line(1), line(2).toInt)).toDF()
    infoDF.show()
    infoDF.filter(infoDF.col("age") > 70).show
    infoDF.createOrReplaceTempView("infos")
    spark.sql("select * from infos where age > 70").show()
  }
  case class Info(id: Int, name: String, age: Int)
}
root
 |-- id: integer (nullable = true)
 |-- name: string (nullable = true)
 |-- age: integer (nullable = true)
+---+-----+---+
| id| name|age|
+---+-----+---+
|  1|hello| 66|
|  2|world| 89|
|  3|spark| 88|
+---+-----+---+
+---+-----+---+
| id| name|age|
+---+-----+---+
|  2|world| 89|
|  3|spark| 88|
+---+-----+---+
+---+-----+---+
| id| name|age|
+---+-----+---+
|  2|world| 89|
|  3|spark| 88|
+---+-----+---+

案例

package org.example
import org.apache.spark.sql.SparkSession
/**
 * DataFrame中的操作操作
 */
object DataFrameProjectApp {
  def main(args: Array[String]) {
    val spark = SparkSession.builder().appName("DataFrameProjectApp").master("local[2]").getOrCreate()
    // RDD ==> DataFrame
    val rdd = spark.sparkContext.textFile("Student.data")
    //注意:需要导入隐式转换
    import spark.implicits._
    val studentDF = rdd.map(_.split("\\|")).map(line => Student(line(0).toInt, line(1), line(2), line(3))).toDF()
    //show默认只显示前20条
    studentDF.show
    studentDF.show(30)
    studentDF.show(30, false)
    studentDF.take(10)
    studentDF.first()
    studentDF.head(3)
    studentDF.select("email").show(30,false)
    studentDF.filter("name=''").show
    studentDF.filter("name='' OR name='NULL'").show
    //name以M开头的人
    studentDF.filter("SUBSTR(name,0,1)='M'").show
    studentDF.sort(studentDF("name")).show
    studentDF.sort(studentDF("name").desc).show
    studentDF.sort("name","id").show
    studentDF.sort(studentDF("name").asc, studentDF("id").desc).show
    studentDF.select(studentDF("name").as("student_name")).show
    val studentDF2 = rdd.map(_.split("\\|")).map(line => Student(line(0).toInt, line(1), line(2), line(3))).toDF()
    studentDF.join(studentDF2, studentDF.col("id") === studentDF2.col("id")).show
    spark.stop()
  }
  case class Student(id: Int, name: String, phone: String, email: String)
}
+---+--------+--------------+--------------------+
| id|    name|         phone|               email|
+---+--------+--------------+--------------------+
|  1|   Burke|1-300-746-8446|ullamcorper.velit...|
|  2|   Kamal|1-668-571-5046|pede.Suspendisse@...|
|  3|    Olga|1-956-311-1686|Aenean.eget.metus...|
|  4|   Belle|1-246-894-6340|vitae.aliquet.nec...|
|  5|  Trevor|1-300-527-4967|dapibus.id@acturp...|
|  6|  Laurel|1-691-379-9921|adipiscing@consec...|
|  7|    Sara|1-608-140-1995|Donec.nibh@enimEt...|
|  8|  Kaseem|1-881-586-2689|cursus.et.magna@e...|
|  9|     Lev|1-916-367-5608|Vivamus.nisi@ipsu...|
| 10|    Maya|1-271-683-2698|accumsan.convalli...|
| 11|     Emi|1-467-270-1337|        est@nunc.com|
| 12|   Caleb|1-683-212-0896|Suspendisse@Quisq...|
| 13|Florence|1-603-575-2444|sit.amet.dapibus@...|
| 14|   Anika|1-856-828-7883|euismod@ligulaeli...|
| 15|   Tarik|1-398-171-2268|turpis@felisorci.com|
| 16|   Amena|1-878-250-3129|lorem.luctus.ut@s...|
| 17| Blossom|1-154-406-9596|Nunc.commodo.auct...|
| 18|     Guy|1-869-521-3230|senectus.et.netus...|
| 19| Malachi|1-608-637-2772|Proin.mi.Aliquam@...|
| 20|  Edward|1-711-710-6552|lectus@aliquetlib...|
+---+--------+--------------+--------------------+
only showing top 20 rows
| id|    name|         phone|               email|
+---+--------+--------------+--------------------+
|  1|   Burke|1-300-746-8446|ullamcorper.velit...|
|  2|   Kamal|1-668-571-5046|pede.Suspendisse@...|
|  3|    Olga|1-956-311-1686|Aenean.eget.metus...|
|  4|   Belle|1-246-894-6340|vitae.aliquet.nec...|
|  5|  Trevor|1-300-527-4967|dapibus.id@acturp...|
|  6|  Laurel|1-691-379-9921|adipiscing@consec...|
|  7|    Sara|1-608-140-1995|Donec.nibh@enimEt...|
|  8|  Kaseem|1-881-586-2689|cursus.et.magna@e...|
|  9|     Lev|1-916-367-5608|Vivamus.nisi@ipsu...|
| 10|    Maya|1-271-683-2698|accumsan.convalli...|
| 11|     Emi|1-467-270-1337|        est@nunc.com|
| 12|   Caleb|1-683-212-0896|Suspendisse@Quisq...|
| 13|Florence|1-603-575-2444|sit.amet.dapibus@...|
| 14|   Anika|1-856-828-7883|euismod@ligulaeli...|
| 15|   Tarik|1-398-171-2268|turpis@felisorci.com|
| 16|   Amena|1-878-250-3129|lorem.luctus.ut@s...|
| 17| Blossom|1-154-406-9596|Nunc.commodo.auct...|
| 18|     Guy|1-869-521-3230|senectus.et.netus...|
| 19| Malachi|1-608-637-2772|Proin.mi.Aliquam@...|
| 20|  Edward|1-711-710-6552|lectus@aliquetlib...|
| 21|        |1-711-710-6552|lectus@aliquetlib...|
| 22|        |1-711-710-6552|lectus@aliquetlib...|
| 23|    NULL|1-711-710-6552|lectus@aliquetlib...|
+---+--------+--------------+--------------------+
+---+--------+--------------+-----------------------------------------+
|id |name    |phone         |email                                    |
+---+--------+--------------+-----------------------------------------+
|1  |Burke   |1-300-746-8446|ullamcorper.velit.in@ametnullaDonec.co.uk|
|2  |Kamal   |1-668-571-5046|pede.Suspendisse@interdumenim.edu        |
|3  |Olga    |1-956-311-1686|Aenean.eget.metus@dictumcursusNunc.edu   |
|4  |Belle   |1-246-894-6340|vitae.aliquet.nec@neque.co.uk            |
|5  |Trevor  |1-300-527-4967|dapibus.id@acturpisegestas.net           |
|6  |Laurel  |1-691-379-9921|adipiscing@consectetueripsum.edu         |
|7  |Sara    |1-608-140-1995|Donec.nibh@enimEtiamimperdiet.edu        |
|8  |Kaseem  |1-881-586-2689|cursus.et.magna@euismod.org              |
|9  |Lev     |1-916-367-5608|Vivamus.nisi@ipsumdolor.com              |
|10 |Maya    |1-271-683-2698|accumsan.convallis@ornarelectusjusto.edu |
|11 |Emi     |1-467-270-1337|est@nunc.com                             |
|12 |Caleb   |1-683-212-0896|Suspendisse@Quisque.edu                  |
|13 |Florence|1-603-575-2444|sit.amet.dapibus@lacusAliquamrutrum.ca   |
|14 |Anika   |1-856-828-7883|euismod@ligulaelit.co.uk                 |
|15 |Tarik   |1-398-171-2268|turpis@felisorci.com                     |
|16 |Amena   |1-878-250-3129|lorem.luctus.ut@scelerisque.com          |
|17 |Blossom |1-154-406-9596|Nunc.commodo.auctor@eratSed.co.uk        |
|18 |Guy     |1-869-521-3230|senectus.et.netus@lectusrutrum.com       |
|19 |Malachi |1-608-637-2772|Proin.mi.Aliquam@estarcu.net             |
|20 |Edward  |1-711-710-6552|lectus@aliquetlibero.co.uk               |
|21 |        |1-711-710-6552|lectus@aliquetlibero.co.uk               |
|22 |        |1-711-710-6552|lectus@aliquetlibero.co.uk               |
|23 |NULL    |1-711-710-6552|lectus@aliquetlibero.co.uk               |
+---+--------+--------------+-----------------------------------------+
+-----------------------------------------+
|email                                    |
+-----------------------------------------+
|ullamcorper.velit.in@ametnullaDonec.co.uk|
|pede.Suspendisse@interdumenim.edu        |
|Aenean.eget.metus@dictumcursusNunc.edu   |
|vitae.aliquet.nec@neque.co.uk            |
|dapibus.id@acturpisegestas.net           |
|adipiscing@consectetueripsum.edu         |
|Donec.nibh@enimEtiamimperdiet.edu        |
|cursus.et.magna@euismod.org              |
|Vivamus.nisi@ipsumdolor.com              |
|accumsan.convallis@ornarelectusjusto.edu |
|est@nunc.com                             |
|Suspendisse@Quisque.edu                  |
|sit.amet.dapibus@lacusAliquamrutrum.ca   |
|euismod@ligulaelit.co.uk                 |
|turpis@felisorci.com                     |
|lorem.luctus.ut@scelerisque.com          |
|Nunc.commodo.auctor@eratSed.co.uk        |
|senectus.et.netus@lectusrutrum.com       |
|Proin.mi.Aliquam@estarcu.net             |
|lectus@aliquetlibero.co.uk               |
|lectus@aliquetlibero.co.uk               |
|lectus@aliquetlibero.co.uk               |
|lectus@aliquetlibero.co.uk               |
+-----------------------------------------+
+---+----+--------------+--------------------+
| id|name|         phone|               email|
+---+----+--------------+--------------------+
| 21|    |1-711-710-6552|lectus@aliquetlib...|
| 22|    |1-711-710-6552|lectus@aliquetlib...|
+---+----+--------------+--------------------+
+---+----+--------------+--------------------+
| id|name|         phone|               email|
+---+----+--------------+--------------------+
| 21|    |1-711-710-6552|lectus@aliquetlib...|
| 22|    |1-711-710-6552|lectus@aliquetlib...|
| 23|NULL|1-711-710-6552|lectus@aliquetlib...|
+---+----+--------------+--------------------+
+---+-------+--------------+--------------------+
| id|   name|         phone|               email|
+---+-------+--------------+--------------------+
| 10|   Maya|1-271-683-2698|accumsan.convalli...|
| 19|Malachi|1-608-637-2772|Proin.mi.Aliquam@...|
+---+-------+--------------+--------------------+
+---+--------+--------------+--------------------+
| id|    name|         phone|               email|
+---+--------+--------------+--------------------+
| 21|        |1-711-710-6552|lectus@aliquetlib...|
| 22|        |1-711-710-6552|lectus@aliquetlib...|
| 16|   Amena|1-878-250-3129|lorem.luctus.ut@s...|
| 14|   Anika|1-856-828-7883|euismod@ligulaeli...|
|  4|   Belle|1-246-894-6340|vitae.aliquet.nec...|
| 17| Blossom|1-154-406-9596|Nunc.commodo.auct...|
|  1|   Burke|1-300-746-8446|ullamcorper.velit...|
| 12|   Caleb|1-683-212-0896|Suspendisse@Quisq...|
| 20|  Edward|1-711-710-6552|lectus@aliquetlib...|
| 11|     Emi|1-467-270-1337|        est@nunc.com|
| 13|Florence|1-603-575-2444|sit.amet.dapibus@...|
| 18|     Guy|1-869-521-3230|senectus.et.netus...|
|  2|   Kamal|1-668-571-5046|pede.Suspendisse@...|
|  8|  Kaseem|1-881-586-2689|cursus.et.magna@e...|
|  6|  Laurel|1-691-379-9921|adipiscing@consec...|
|  9|     Lev|1-916-367-5608|Vivamus.nisi@ipsu...|
| 19| Malachi|1-608-637-2772|Proin.mi.Aliquam@...|
| 10|    Maya|1-271-683-2698|accumsan.convalli...|
| 23|    NULL|1-711-710-6552|lectus@aliquetlib...|
|  3|    Olga|1-956-311-1686|Aenean.eget.metus...|
+---+--------+--------------+--------------------+
+---+--------+--------------+--------------------+
| id|    name|         phone|               email|
+---+--------+--------------+--------------------+
|  5|  Trevor|1-300-527-4967|dapibus.id@acturp...|
| 15|   Tarik|1-398-171-2268|turpis@felisorci.com|
|  7|    Sara|1-608-140-1995|Donec.nibh@enimEt...|
|  3|    Olga|1-956-311-1686|Aenean.eget.metus...|
| 23|    NULL|1-711-710-6552|lectus@aliquetlib...|
| 10|    Maya|1-271-683-2698|accumsan.convalli...|
| 19| Malachi|1-608-637-2772|Proin.mi.Aliquam@...|
|  9|     Lev|1-916-367-5608|Vivamus.nisi@ipsu...|
|  6|  Laurel|1-691-379-9921|adipiscing@consec...|
|  8|  Kaseem|1-881-586-2689|cursus.et.magna@e...|
|  2|   Kamal|1-668-571-5046|pede.Suspendisse@...|
| 18|     Guy|1-869-521-3230|senectus.et.netus...|
| 13|Florence|1-603-575-2444|sit.amet.dapibus@...|
| 11|     Emi|1-467-270-1337|        est@nunc.com|
| 20|  Edward|1-711-710-6552|lectus@aliquetlib...|
| 12|   Caleb|1-683-212-0896|Suspendisse@Quisq...|
|  1|   Burke|1-300-746-8446|ullamcorper.velit...|
| 17| Blossom|1-154-406-9596|Nunc.commodo.auct...|
|  4|   Belle|1-246-894-6340|vitae.aliquet.nec...|
| 14|   Anika|1-856-828-7883|euismod@ligulaeli...|
+---+--------+--------------+--------------------+
+---+--------+--------------+--------------------+
| id|    name|         phone|               email|
+---+--------+--------------+--------------------+
| 21|        |1-711-710-6552|lectus@aliquetlib...|
| 22|        |1-711-710-6552|lectus@aliquetlib...|
| 16|   Amena|1-878-250-3129|lorem.luctus.ut@s...|
| 14|   Anika|1-856-828-7883|euismod@ligulaeli...|
|  4|   Belle|1-246-894-6340|vitae.aliquet.nec...|
| 17| Blossom|1-154-406-9596|Nunc.commodo.auct...|
|  1|   Burke|1-300-746-8446|ullamcorper.velit...|
| 12|   Caleb|1-683-212-0896|Suspendisse@Quisq...|
| 20|  Edward|1-711-710-6552|lectus@aliquetlib...|
| 11|     Emi|1-467-270-1337|        est@nunc.com|
| 13|Florence|1-603-575-2444|sit.amet.dapibus@...|
| 18|     Guy|1-869-521-3230|senectus.et.netus...|
|  2|   Kamal|1-668-571-5046|pede.Suspendisse@...|
|  8|  Kaseem|1-881-586-2689|cursus.et.magna@e...|
|  6|  Laurel|1-691-379-9921|adipiscing@consec...|
|  9|     Lev|1-916-367-5608|Vivamus.nisi@ipsu...|
| 19| Malachi|1-608-637-2772|Proin.mi.Aliquam@...|
| 10|    Maya|1-271-683-2698|accumsan.convalli...|
| 23|    NULL|1-711-710-6552|lectus@aliquetlib...|
|  3|    Olga|1-956-311-1686|Aenean.eget.metus...|
+---+--------+--------------+--------------------+
+---+--------+--------------+--------------------+
| id|    name|         phone|               email|
+---+--------+--------------+--------------------+
| 22|        |1-711-710-6552|lectus@aliquetlib...|
| 21|        |1-711-710-6552|lectus@aliquetlib...|
| 16|   Amena|1-878-250-3129|lorem.luctus.ut@s...|
| 14|   Anika|1-856-828-7883|euismod@ligulaeli...|
|  4|   Belle|1-246-894-6340|vitae.aliquet.nec...|
| 17| Blossom|1-154-406-9596|Nunc.commodo.auct...|
|  1|   Burke|1-300-746-8446|ullamcorper.velit...|
| 12|   Caleb|1-683-212-0896|Suspendisse@Quisq...|
| 20|  Edward|1-711-710-6552|lectus@aliquetlib...|
| 11|     Emi|1-467-270-1337|        est@nunc.com|
| 13|Florence|1-603-575-2444|sit.amet.dapibus@...|
| 18|     Guy|1-869-521-3230|senectus.et.netus...|
|  2|   Kamal|1-668-571-5046|pede.Suspendisse@...|
|  8|  Kaseem|1-881-586-2689|cursus.et.magna@e...|
|  6|  Laurel|1-691-379-9921|adipiscing@consec...|
|  9|     Lev|1-916-367-5608|Vivamus.nisi@ipsu...|
| 19| Malachi|1-608-637-2772|Proin.mi.Aliquam@...|
| 10|    Maya|1-271-683-2698|accumsan.convalli...|
| 23|    NULL|1-711-710-6552|lectus@aliquetlib...|
|  3|    Olga|1-956-311-1686|Aenean.eget.metus...|
+---+--------+--------------+--------------------+
+------------+
|student_name|
+------------+
|       Burke|
|       Kamal|
|        Olga|
|       Belle|
|      Trevor|
|      Laurel|
|        Sara|
|      Kaseem|
|         Lev|
|        Maya|
|         Emi|
|       Caleb|
|    Florence|
|       Anika|
|       Tarik|
|       Amena|
|     Blossom|
|         Guy|
|     Malachi|
|      Edward|
+------------+
+---+--------+--------------+--------------------+---+--------+--------------+--------------------+
| id|    name|         phone|               email| id|    name|         phone|               email|
+---+--------+--------------+--------------------+---+--------+--------------+--------------------+
| 12|   Caleb|1-683-212-0896|Suspendisse@Quisq...| 12|   Caleb|1-683-212-0896|Suspendisse@Quisq...|
| 22|        |1-711-710-6552|lectus@aliquetlib...| 22|        |1-711-710-6552|lectus@aliquetlib...|
|  1|   Burke|1-300-746-8446|ullamcorper.velit...|  1|   Burke|1-300-746-8446|ullamcorper.velit...|
| 13|Florence|1-603-575-2444|sit.amet.dapibus@...| 13|Florence|1-603-575-2444|sit.amet.dapibus@...|
|  6|  Laurel|1-691-379-9921|adipiscing@consec...|  6|  Laurel|1-691-379-9921|adipiscing@consec...|
| 16|   Amena|1-878-250-3129|lorem.luctus.ut@s...| 16|   Amena|1-878-250-3129|lorem.luctus.ut@s...|
|  3|    Olga|1-956-311-1686|Aenean.eget.metus...|  3|    Olga|1-956-311-1686|Aenean.eget.metus...|
| 20|  Edward|1-711-710-6552|lectus@aliquetlib...| 20|  Edward|1-711-710-6552|lectus@aliquetlib...|
|  5|  Trevor|1-300-527-4967|dapibus.id@acturp...|  5|  Trevor|1-300-527-4967|dapibus.id@acturp...|
| 19| Malachi|1-608-637-2772|Proin.mi.Aliquam@...| 19| Malachi|1-608-637-2772|Proin.mi.Aliquam@...|
| 15|   Tarik|1-398-171-2268|turpis@felisorci.com| 15|   Tarik|1-398-171-2268|turpis@felisorci.com|
|  9|     Lev|1-916-367-5608|Vivamus.nisi@ipsu...|  9|     Lev|1-916-367-5608|Vivamus.nisi@ipsu...|
| 17| Blossom|1-154-406-9596|Nunc.commodo.auct...| 17| Blossom|1-154-406-9596|Nunc.commodo.auct...|
|  4|   Belle|1-246-894-6340|vitae.aliquet.nec...|  4|   Belle|1-246-894-6340|vitae.aliquet.nec...|
|  8|  Kaseem|1-881-586-2689|cursus.et.magna@e...|  8|  Kaseem|1-881-586-2689|cursus.et.magna@e...|
| 23|    NULL|1-711-710-6552|lectus@aliquetlib...| 23|    NULL|1-711-710-6552|lectus@aliquetlib...|
|  7|    Sara|1-608-140-1995|Donec.nibh@enimEt...|  7|    Sara|1-608-140-1995|Donec.nibh@enimEt...|
| 10|    Maya|1-271-683-2698|accumsan.convalli...| 10|    Maya|1-271-683-2698|accumsan.convalli...|
| 21|        |1-711-710-6552|lectus@aliquetlib...| 21|        |1-711-710-6552|lectus@aliquetlib...|
| 11|     Emi|1-467-270-1337|        est@nunc.com| 11|     Emi|1-467-270-1337|        est@nunc.com|
+---+--------+--------------+--------------------+---+--------+--------------+--------------------+
only showing top 20 rows

image.png

DataFrame = Dataset[Row]

Dataset:强类型 typed case class

DataFrame:弱类型 Row


SQL: seletc name from person; compile ok, result no


DF:


df.select(“name”) compile no

df.select(“nname”) compile ok

DS:ds.map(line => line.itemid) compile no

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
15天前
|
SQL 分布式计算 Java
Spark SQL向量化执行引擎框架Gluten-Velox在AArch64使能和优化
本文摘自 Arm China的工程师顾煜祺关于“在 Arm 平台上使用 Native 算子库加速 Spark”的分享,主要内容包括以下四个部分: 1.技术背景 2.算子库构成 3.算子操作优化 4.未来工作
|
2月前
|
SQL 算法 大数据
为什么大数据平台会回归SQL
在大数据领域,尽管非结构化数据占据了大数据平台80%以上的存储空间,结构化数据分析依然是核心任务。SQL因其广泛的应用基础和易于上手的特点成为大数据处理的主要语言,各大厂商纷纷支持SQL以提高市场竞争力。然而,SQL在处理复杂计算时表现出的性能和开发效率低下问题日益凸显,如难以充分利用现代硬件能力、复杂SQL优化困难等。为了解决这些问题,出现了像SPL这样的开源计算引擎,它通过提供更高效的开发体验和计算性能,以及对多种数据源的支持,为大数据处理带来了新的解决方案。
|
2月前
|
SQL 存储 算法
比 SQL 快出数量级的大数据计算技术
SQL 是大数据计算中最常用的工具,但在实际应用中,SQL 经常跑得很慢,浪费大量硬件资源。例如,某银行的反洗钱计算在 11 节点的 Vertica 集群上跑了 1.5 小时,而用 SPL 重写后,单机只需 26 秒。类似地,电商漏斗运算和时空碰撞任务在使用 SPL 后,性能也大幅提升。这是因为 SQL 无法写出低复杂度的算法,而 SPL 提供了更强大的数据类型和基础运算,能够实现高效计算。
|
2月前
|
SQL JSON 分布式计算
【赵渝强老师】Spark SQL的数据模型:DataFrame
本文介绍了在Spark SQL中创建DataFrame的三种方法。首先,通过定义case class来创建表结构,然后将CSV文件读入RDD并关联Schema生成DataFrame。其次,使用StructType定义表结构,同样将CSV文件读入RDD并转换为Row对象后创建DataFrame。最后,直接加载带有格式的数据文件(如JSON),通过读取文件内容直接创建DataFrame。每种方法都包含详细的代码示例和解释。
|
3月前
|
SQL 消息中间件 分布式计算
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(一)
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(一)
132 0
|
3月前
|
SQL 大数据
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(二)
大数据-143 - ClickHouse 集群 SQL 超详细实践记录!(二)
103 0
|
SQL 消息中间件 分布式计算
通过Spark SQL实时归档SLS数据
我在前一篇文章介绍过基于Spark SQL实现对HDFS操作的实时监控报警。今天,我再举例说明一下如何使用Spark SQL进行流式应用的开发。
2579 0
|
4月前
|
关系型数据库 MySQL 网络安全
5-10Can't connect to MySQL server on 'sh-cynosl-grp-fcs50xoa.sql.tencentcdb.com' (110)")
5-10Can't connect to MySQL server on 'sh-cynosl-grp-fcs50xoa.sql.tencentcdb.com' (110)")
|
6月前
|
SQL 存储 监控
SQL Server的并行实施如何优化?
【7月更文挑战第23天】SQL Server的并行实施如何优化?
169 13
|
6月前
|
SQL
解锁 SQL Server 2022的时间序列数据功能
【7月更文挑战第14天】要解锁SQL Server 2022的时间序列数据功能,可使用`generate_series`函数生成整数序列,例如:`SELECT value FROM generate_series(1, 10)。此外,`date_bucket`函数能按指定间隔(如周)对日期时间值分组,这些工具结合窗口函数和其他时间日期函数,能高效处理和分析时间序列数据。更多信息请参考官方文档和技术资料。

热门文章

最新文章