Spark_SQl

简介:

引入 hadoop 的core-site.xml
加入与之对应版本的Spark-client

                    和Spark-Sql  依赖  

这是一个简单SparkSql 方式的Word-count 的例子

···

package com.xxx

import org.apache.spark.sql.SparkSession

object WordCount {

def main(args: Array[String]): Unit = {

val spark =SparkSession.builder().master("local[*]").appName("spark sql word count").getOrCreate()
//连接hdfs
//导入隐式转换

import spark.implicits._
import  spark.sql

//导入文件

val rdd=spark.sparkContext.textFile("/user_info.txt")
val ds =rdd toDS()

ds.printSchema()

ds.createOrReplaceTempView("line_str")
val wcResult =sql(
  """
    |select word
    |  ,count(1) as  count
    |  from(
    |  select explode(split(value,'')) as word
    |  from line_str
    |  )
    |  group by word
  """.stripMargin)
wcResult.show()

}
}

···

相关文章
|
域名解析 网络协议 算法
阿里云免费HTTPS证书申请入口及申请流程
阿里云免费HTTPS证书申请入口及申请流程,阿里云SSL免费证书在哪申请?一个阿里云账号一年可以申请20张免费SSL证书,很多同学找不到免费SSL的入口,阿小云来详细说下阿里云SSL证书免费申请入口链接以及免费SSL证书申请流程,有同学反馈阿里云免费SSL证书没有了?错,一直都有啊,阿里云一直都有免费SSL提供,只是隐藏得比较深:
3334 0
|
存储 关系型数据库 MySQL
【MySQL专题】MySQL百万级数据插入效率优化
【MySQL专题】MySQL百万级数据插入效率优化
1261 0
【MySQL专题】MySQL百万级数据插入效率优化
|
JavaScript
nodejs自动接收新邮件进行处理
通过imap 来接收邮箱新邮件,类似客户端系列,不过比较简单的,目前只有新邮件,后续也可以通过这个来做一个自己的邮件客户端。
nodejs自动接收新邮件进行处理
研学旅行的概念和特点
【8月更文挑战第4天】研学旅行的概念和特点
689 2
|
消息中间件 安全 开发者
Python global关键字分析
Python 是一种高级编程语言,拥有非常强大的功能和灵活性。在 Python 中,global 关键字可以用于在函数内部修改全局变量的值。本篇技术博客将介绍 global 关键字的使用方法和实现原理。
387 5
阿里云备案流程、操作步骤及所需时间图文详解
阿里云网站一共经过五步骤,先提交材料到阿里云初审,阿里云初审通过后提交到管局,用户进行工信部短信核验,最后等待管局审核即可。整个过程快的话2天即可搞定,慢的话需要20多天左右
2872 0
阿里云备案流程、操作步骤及所需时间图文详解
|
安全 前端开发 数据挖掘
透过三组数字,认识阿里巴巴2023ESG报告中的 "瓴羊"
透过三组数字,认识阿里巴巴2023ESG报告中的 "瓴羊"
419 0
|
XML 物联网 数据处理
Harmony Ble蓝牙App(二)连接与发现服务
Harmony Ble蓝牙App(二)连接与发现服务
229 0
|
Cloud Native 算法 Go
技术面试与HR面:两者之间的关联与区别
技术面试与HR面:两者之间的关联与区别
660 0
|
资源调度 运维 Java
定时任务报警通知解决方案详解
随着微服务和云计算的兴起,定时任务技术也是发展迅速,不仅能做单机的定时任务,而且在分布式系统下应用也很广泛,成为了业务做兜底、数据处理的第一选择。
2759 3
定时任务报警通知解决方案详解