Spark_SQl

简介:

引入 hadoop 的core-site.xml
加入与之对应版本的Spark-client

                    和Spark-Sql  依赖  
AI 代码解读

这是一个简单SparkSql 方式的Word-count 的例子

···

package com.xxx

import org.apache.spark.sql.SparkSession

object WordCount {

def main(args: Array[String]): Unit = {

val spark =SparkSession.builder().master("local[*]").appName("spark sql word count").getOrCreate()
//连接hdfs
//导入隐式转换

import spark.implicits._
import  spark.sql
AI 代码解读

//导入文件

val rdd=spark.sparkContext.textFile("/user_info.txt")
val ds =rdd toDS()

ds.printSchema()

ds.createOrReplaceTempView("line_str")
val wcResult =sql(
  """
    |select word
    |  ,count(1) as  count
    |  from(
    |  select explode(split(value,'')) as word
    |  from line_str
    |  )
    |  group by word
  """.stripMargin)
wcResult.show()
AI 代码解读

}
}

···

目录
打赏
0
0
0
0
49
分享
相关文章
【Spark】Spark SQL 数据类型转换
【Spark】Spark SQL 数据类型转换
1875 0
【Spark】Spark SQL 数据类型转换
Spark Sql系统入门4:spark应用程序中使用spark sql
Spark Sql系统入门4:spark应用程序中使用spark sql
164 0
【Spark】(八)Spark SQL 应用解析2
【Spark】(八)Spark SQL 应用解析2
216 0
【Spark】(八)Spark SQL 应用解析2
深入理解SPARK SQL 中HashAggregateExec和ObjectHashAggregateExec以及UnsafeRow
深入理解SPARK SQL 中HashAggregateExec和ObjectHashAggregateExec以及UnsafeRow
800 0
深入理解SPARK SQL 中HashAggregateExec和ObjectHashAggregateExec以及UnsafeRow
Spark SQL的Parquet那些事儿
Parquet是一种列式存储格式,很多种处理引擎都支持这种存储格式,也是sparksql的默认存储格式。Spark SQL支持灵活的读和写Parquet文件,并且对parquet文件的schema可以自动解析。当Spark SQL需要写成Parquet文件时,处于兼容的原因所有的列都被自动转化为了nullable。 1读写Parquet文件 // Encoders for most common types are automatically provided by importing spark.implicits._ import spark.implicits._ val peop
859 0
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等