Spark_SQl

简介:

引入 hadoop 的core-site.xml
加入与之对应版本的Spark-client

                    和Spark-Sql  依赖  

这是一个简单SparkSql 方式的Word-count 的例子

···

package com.xxx

import org.apache.spark.sql.SparkSession

object WordCount {

def main(args: Array[String]): Unit = {

val spark =SparkSession.builder().master("local[*]").appName("spark sql word count").getOrCreate()
//连接hdfs
//导入隐式转换

import spark.implicits._
import  spark.sql

//导入文件

val rdd=spark.sparkContext.textFile("/user_info.txt")
val ds =rdd toDS()

ds.printSchema()

ds.createOrReplaceTempView("line_str")
val wcResult =sql(
  """
    |select word
    |  ,count(1) as  count
    |  from(
    |  select explode(split(value,'')) as word
    |  from line_str
    |  )
    |  group by word
  """.stripMargin)
wcResult.show()

}
}

···

相关文章
|
SQL 分布式计算 Scala
【Spark】Spark SQL 数据类型转换
【Spark】Spark SQL 数据类型转换
1842 0
【Spark】Spark SQL 数据类型转换
|
7月前
|
SQL 分布式计算 数据库
Spark SQL
Spark SQL
81 1
|
SQL 数据采集 分布式计算
基于Spark SQL的数据探索
基于Spark SQL的数据探索
|
SQL 存储 分布式计算
Spark SQL实战(08)-整合Hive
Apache Spark 是一个快速、可扩展的分布式计算引擎,而 Hive 则是一个数据仓库工具,它提供了数据存储和查询功能。在 Spark 中使用 Hive 可以提高数据处理和查询的效率。
199 0
|
SQL JSON 分布式计算
Spark Sql系统入门4:spark应用程序中使用spark sql
Spark Sql系统入门4:spark应用程序中使用spark sql
152 0
|
SQL 分布式计算 HIVE
【Spark】(八)Spark SQL 应用解析2
【Spark】(八)Spark SQL 应用解析2
206 0
【Spark】(八)Spark SQL 应用解析2
|
SQL 分布式计算 关系型数据库
【Spark】(八)Spark SQL 应用解析1
【Spark】(八)Spark SQL 应用解析1
128 0
【Spark】(八)Spark SQL 应用解析1
|
存储 SQL 分布式计算
深入理解SPARK SQL 中HashAggregateExec和ObjectHashAggregateExec以及UnsafeRow
深入理解SPARK SQL 中HashAggregateExec和ObjectHashAggregateExec以及UnsafeRow
782 0
深入理解SPARK SQL 中HashAggregateExec和ObjectHashAggregateExec以及UnsafeRow
|
SQL 分布式计算 Hadoop
用spark sql执行操作hive
用spark sql执行操作hive
497 0
|
SQL 分布式计算 Java
Spark Streaming与Spark SQL结合操作详解
Spark Streaming最强大的地方在于,可以与Spark Core、Spark SQL整合使用,之前已经通 过transform、foreachRDD等算子看到,如何将DStream中的RDD使用Spark Core执行批处理操 作。现在就来看看,如何将DStream中的RDD与Spark SQL结合起来使用。