备案控制台

开发者社区大数据文章正文

Spark SQL概念学习系列之如何使用 Spark SQL（六）

2017-11-14 1168

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

al sqlContext = new org.apache.spark.sql.SQLContext(sc)
// 在这里引入 sqlContext 下所有的方法就可以直接用 sql 方法进行查询
import sqlContext._
case class Person(name: String, age: Int)

　　// 下面的 people 是含有 case 类型数据的 RDD，会默认由 Scala 的 implicit 机制将 RDD 转换为
SchemaRDD， SchemaRDD 是 SparkSQL 中的核心 RDD
val people = sc.textFile("examples/src/main/resources/people.txt").map(_.
split(",")).map(p => Person(p(0), p(1).trim.toInt))
// 在内存的元数据中注册表信息，这样一个 Spark SQL 表就创建完成了
people.registerAsTable("people")
// sql 语句就会触发上面分析的 Spark SQL 的执行过程，读者可以参考上面的图示
val teenagers = sql("SELECT name FROM people WHERE age >= 13 AND age <= 19")
// 最后生成 teenagers 也是一个 RDD
teenagers.map(t =>"Name: " + t(0)).collect().foreach(println)

　　通过之前的介绍，读者对支撑结构化数据分析任务的 Spark SQL 的原理与使用有了一定的了解。在生产环境中，有一类数据分析任务对响应延迟要求高，需要实时处理流数据，在 BDAS 中， Spark Streaming 用于支撑大规模流式处理分析任务。

本文转自大数据躺过的坑博客园博客，原文链接：http://www.cnblogs.com/zlslch/p/5725106.html，如需转载请自行联系原作者

文章标签：

SQL

分布式计算

大数据

Spark

关键词：

apache spark SQL

apache spark学习

SQL学习

apache spark概念

SQL概念

技术小哥哥

目录

相关文章

武子康

|

2月前

|

存储分布式计算算法

大数据-106 Spark Graph X 计算学习案例：1图的基本计算、2连通图算法、3寻找相同的用户

大数据-106 Spark Graph X 计算学习案例：1图的基本计算、2连通图算法、3寻找相同的用户

武子康

72 0 0

赵渝强老师

|

1月前

|

SQL JSON 分布式计算

【赵渝强老师】Spark SQL的数据模型：DataFrame

本文介绍了在Spark SQL中创建DataFrame的三种方法。首先，通过定义case class来创建表结构，然后将CSV文件读入RDD并关联Schema生成DataFrame。其次，使用StructType定义表结构，同样将CSV文件读入RDD并转换为Row对象后创建DataFrame。最后，直接加载带有格式的数据文件（如JSON），通过读取文件内容直接创建DataFrame。每种方法都包含详细的代码示例和解释。

赵渝强老师

43 0 0

LKIDTI数据

|

2月前

|

分布式计算算法 Spark

spark学习之 GraphX—预测社交圈子

spark学习之 GraphX—预测社交圈子

LKIDTI数据

51 0 0

LKIDTI数据

|

2月前

|

分布式计算 Scala Spark

educoder的spark算子学习

educoder的spark算子学习

LKIDTI数据

21 0 0

武子康

|

2月前

|

存储分布式计算算法

大数据-105 Spark GraphX 基本概述与架构基础概念详解核心数据结构

大数据-105 Spark GraphX 基本概述与架构基础概念详解核心数据结构

武子康

55 0 0

武子康

|

2月前

|

消息中间件分布式计算 Kafka

大数据-98 Spark 集群 Spark Streaming 基础概述架构概念执行流程优缺点

大数据-98 Spark 集群 Spark Streaming 基础概述架构概念执行流程优缺点

武子康

49 0 0

武子康

|

2月前

|

SQL 分布式计算大数据

大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程（一）

大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程（一）

武子康

70 0 0

武子康

|

2月前

|

SQL 分布式计算算法

大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程（二）

大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程（二）

武子康

88 0 0

郑小健

|

1月前

|

分布式计算大数据 Apache

ClickHouse与大数据生态集成：Spark & Flink 实战

【10月更文挑战第26天】在当今这个数据爆炸的时代，能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统，ClickHouse 在大数据分析领域展现出了卓越的能力。然而，为了充分利用ClickHouse的优势，将其与现有的大数据处理框架（如Apache Spark和Apache Flink）进行集成变得尤为重要。本文将从我个人的角度出发，探讨如何通过这些技术的结合，实现对大规模数据的实时处理和分析。

郑小健

130 2 3

ClickHouse与大数据生态集成：Spark & Flink 实战

武子康

|

2月前

|

消息中间件分布式计算 NoSQL

大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新

大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新

武子康

45 0 0

热门文章

最新文章

Spark Master启动源码分析

Spark-spark streaming

Spark本地环境搭建（local模式）

Spark PruneDependency 依赖关系 RangePartitioner

spark1.4加载mysql数据创建Dataframe及join操作连接方法问题

Spark为什么只有在调用action时才会触发任务执行呢（附算子优化和使用示例）？

10月17日Spark社区直播【Tablestore Spark Streaming Connector -- 海量结构化数据的实时计算和处理】

利用闪存优化在Cosco基础上的Spark Shuffle

Spark Shell入门教程（上）

领英如何应对Apache Spark的Scalability挑战

SQL脚本相除

0基础学习SQL注入之万能账号密码（BUUctf例题-[极客大挑战 2019]EasySQL1）

SQL脚本利用带关联子查询Update语句更新数据

10分钟了解Flink SQL使用

SQL脚本把多行SQL数据变成一条多列数据

mybatis动态sql

基于若依的ruoyi-nbcio流程管理系统修改代码生成的sql菜单id修改成递增id（谨慎修改，大并发分布式有弊端）

SQL脚本字符串替换

你写的每条SQL都是全表扫描吗

数据库SQL语言实战（六）

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

相关实验场景

更多

PolarDB NL2SQL：自然语言驱动的数据智能

PolarDB for AI：在数据库中通过SQL实现AI能力

玩转MaxCompute SQL! 30分钟搞定数据分析挖掘

使用SQL语句实现数据插入、修改和删除操作

使用SQL语句实现数据查询操作

使用SQL语句管理索引

下一篇