文档备案控制台

开发者社区大数据文章正文

Spark SQL概念学习系列之SQL on Spark的简介（三）

2017-11-13 1387

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

AMPLab 将大数据分析负载分为三大类型：批量数据处理、交互式查询、实时流处理。而其中很重要的一环便是交互式查询。

　　大数据分析栈中需要满足用户 ad-hoc、reporting、 iterative 等类型的查询需求，也需要提供 SQL 接口来兼容原有数据库用户的使用习惯，同时也需要 SQL 能够进行关系模式的重组。完成这些重要的 SQL 任务的便是 Spark SQL 和 Shark 这两个开源分布式大数据查询引擎，它们可以理解为轻量级 Hive SQL 在 Spark 上的实现，业界将该类技术统称为 SQL on Hadoop。

　在 Spark 峰会 2014 上， Databricks 宣布不再支持 Shark 的开发，全力以赴开发Shark 的下一代技术 Spark SQL，同时 Hive 社区也启动了 Hive on Spark 项目，将 Spark作为 Hive（除 MapReduce 和 Tez 之外的）新执行引擎。根据伯克利的 Big Data Benchmark测试对比数据， Shark 的 In Memory 性能可以达到 Hive 的 100 倍，即使是On Disk 也能达到 10 倍的性能提升，是 Hive 强有力的替代解决方案。而作为 Shark 的进化版本的 Spark SQL，在 AMPLab 最新的测试中的性能已经超过 Shark。图 1 展示了 Spark SQL和 Hive on Spark 是新的发展方向。

　　　　　　　　　　　　　　图 1 Spark SQL 和 Hive on Spark 是新的发展方向

本文转自大数据躺过的坑博客园博客，原文链接：http://www.cnblogs.com/zlslch/p/5725020.html，如需转载请自行联系原作者

文章标签：

SQL

分布式计算

Spark

大数据

数据处理

Hadoop

HIVE

数据库

关键词：

apache spark学习

apache spark SQL

SQL spark

SQL学习

apache spark概念

技术小哥哥

目录

相关文章

猿享天开

|

9月前

|

SQL 存储关系型数据库

第二篇：关系型数据库的核心概念与 SQL 基础

本篇内容深入浅出地讲解了关系型数据库的核心概念与SQL基础，适合有一定计算机基础的学习者。文章涵盖数据库的基本操作（CRUD）、数据类型、表的创建与管理等内容，并通过实例解析SELECT、INSERT、UPDATE、DELETE等语句的用法。此外，还推荐了多种学习资源与实践建议，帮助读者巩固知识。学完后，你将掌握基础数据库操作，为后续高级学习铺平道路。

猿享天开

582 1 1

八进智

|

4月前

|

分布式计算 Kubernetes 调度

Kubeflow-Spark-Operator-架构学习指南

本指南系统解析 Spark Operator 架构，涵盖 Kubebuilder 开发、控制器设计与云原生集成。通过四阶段学习路径，助你从部署到贡献，掌握 Kubernetes Operator 核心原理与实战技能。

八进智

285 0 0

游客wkqymr43luqiu

|

7月前

|

SQL JSON 分布式计算

Spark SQL架构及高级用法

Spark SQL基于Catalyst优化器与Tungsten引擎，提供高效的数据处理能力。其架构涵盖SQL解析、逻辑计划优化、物理计划生成及分布式执行，支持复杂数据类型、窗口函数与多样化聚合操作，结合自适应查询与代码生成技术，实现高性能大数据分析。

游客wkqymr43luqiu

516 2 3

yukiji0701

|

9月前

|

机器学习/深度学习人工智能自然语言处理

3 秒音频也能克隆？拆解 Spark-TTS 架构的极致小样本学习

本文深入解析了 Spark-TTS 模型的架构与原理，该模型仅需 3 秒语音样本即可实现高质量的零样本语音克隆。其核心创新在于 BiCodec 单流语音编码架构，将语音信号分解为语义 Token 和全局 Token，实现内容与音色解耦。结合大型语言模型（如 Qwen 2.5），Spark-TTS 能直接生成语义 Token 并还原波形，简化推理流程。实验表明，它不仅能克隆音色、语速和语调，还支持跨语言朗读及情感调整。尽管面临相似度提升、样本鲁棒性等挑战，但其技术突破为定制化 AI 声音提供了全新可能。

yukiji0701

720 35 37

蓝染-惣右介

|

SQL 存储关系型数据库

【MySQL基础篇】全面学习总结SQL语法、DataGrip安装教程

本文详细介绍了MySQL中的SQL语法，包括数据定义（DDL）、数据操作（DML）、数据查询（DQL）和数据控制（DCL）四个主要部分。内容涵盖了创建、修改和删除数据库、表以及表字段的操作，以及通过图形化工具DataGrip进行数据库管理和查询。此外，还讲解了数据的增、删、改、查操作，以及查询语句的条件、聚合函数、分组、排序和分页等知识点。

蓝染-惣右介

1199 56 56

【MySQL基础篇】全面学习总结SQL语法、DataGrip安装教程

瓴羊Dataphin

|

11月前

|

SQL 分布式计算资源调度

Dataphin功能Tips系列（48)-如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列

如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列

瓴羊Dataphin

436 4 4

技术小达人

|

SQL 分布式计算 Java

Spark SQL向量化执行引擎框架Gluten-Velox在AArch64使能和优化

本文摘自 Arm China的工程师顾煜祺关于“在 Arm 平台上使用 Native 算子库加速 Spark”的分享，主要内容包括以下四个部分： 1.技术背景 2.算子库构成 3.算子操作优化 4.未来工作

技术小达人

1799 0 0

蓝易云

|

SQL 安全前端开发

Web学习_SQL注入_联合查询注入

联合查询注入是一种强大的SQL注入攻击方式，攻击者可以通过 `UNION`语句合并多个查询的结果，从而获取敏感信息。防御SQL注入需要多层次的措施，包括使用预处理语句和参数化查询、输入验证和过滤、最小权限原则、隐藏错误信息以及使用Web应用防火墙。通过这些措施，可以有效地提高Web应用程序的安全性，防止SQL注入攻击。

蓝易云

596 2 2

赵渝强老师

|

SQL JSON 分布式计算

【赵渝强老师】Spark SQL的数据模型：DataFrame

本文介绍了在Spark SQL中创建DataFrame的三种方法。首先，通过定义case class来创建表结构，然后将CSV文件读入RDD并关联Schema生成DataFrame。其次，使用StructType定义表结构，同样将CSV文件读入RDD并转换为Row对象后创建DataFrame。最后，直接加载带有格式的数据文件（如JSON），通过读取文件内容直接创建DataFrame。每种方法都包含详细的代码示例和解释。

赵渝强老师

374 0 0

轻风_soho

|

分布式计算 Spark 资源调度

Spark概念介绍

spark应用程序在集群中以一系列独立的线程运行，通过驱动器程序(Driver Program)发起一系列的并行操作

轻风_soho

2366 0 0

热门文章

最新文章

开源大数据技术专场（上午）:Spark、HBase、JStorm应用与实践

欢迎加入Spark中国社区

Spark SQL玩起来

Spark SQL性能优化

阿里巴巴瑾谦/沐远：云HBaseSQL及分析——Phoenix&Spark

【译】使用Spark SQL 运行大规模基因组工作流

spark支持2.4.3版本

7月9日Spark社区直播【通过LLVM加速SparkSQL时间窗口计算】

深入理解SPARK SQL 中HashAggregateExec和ObjectHashAggregateExec以及UnsafeRow

在Ubuntu下搭建Spark群集

SQL语言小结

（SQL）SQL语言中的查询语句整理

为什么这些 SQL 语句逻辑相同，性能却差异巨大？

SQL日志优化策略：提升数据库日志记录效率

阿里云数据库RDS费用价格：MySQL、SQL Server、PostgreSQL和MariaDB引擎收费标准

阿里云数据库收费价格：MySQL、PostgreSQL、SQL Server和MariaDB引擎费用整理

SQL Server 2025 RC1 发布 - 从本地到云端的 AI 就绪企业数据库

MCP与PolarDB集成技术分析：降低SQL门槛与简化数据可视化流程的机制解析

阿里云数据库RDS支持MySQL、SQL Server、PostgreSQL和MariaDB引擎

生成更智能，调试更轻松，SLS SQL Copilot 焕新登场！

相关课程

更多

SQL完全自学手册

SQL Server on Linux入门教程

SQL入门与实践

大数据实时计算框架Spark快速入门

数据库及SQL/MySQL基础

SQL进阶及查询

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

下一篇

第五届伏魔挑战赛如约来袭，诚邀各路高手来战！