[Spark]Shark, Spark SQL, Hive on Spark以及SQL On Spark的未来

简介: 随着Spark SQ的引入以及Hive On Apache Spark的新功能(HIVE-7292)的引入,我们对这两个项目的立场以及它们与Shark的关系有了很多的关注。

随着Spark SQ的引入以及Hive On Apache Spark的新功能(HIVE-7292)的引入,我们对这两个项目的立场以及它们与Shark的关系有了很多的关注。在今天的Spark Summit上,我们宣布我们正在停止Shark的开发,并将资源全部集中在Spark SQL上,这将为现有Shark用户提供一个Shark特色的圈子(will provide a superset of Shark’s features for existing Shark users to move forward)。特别是,Spark SQL将提供从Shark 0.9服务器进行无缝升级途径,以及与Spark程序集成的新功能。

image

1. Shark

3年前Shark项目开始时,Hive(MapReduce)是Hadoop上SQL的唯一选择。Hive将SQL编译成可扩展的MapReduce作业,并可以使用各种格式(通过其SerDes)。 但是,它的性能不如理想。为了交互式查询,组织部署了昂贵的专有企业数据仓库(EDW),这些仓库需要严格且冗长的ETL管道( organizations deployed expensive, proprietary enterprise data warehouses (EDWs) that required rigid and lengthy ETL pipelines)。

Hive和EDW之间的表现形成了鲜明的对比,导致了行业内一个巨大的争议,质疑通用数据处理引擎查询处理的固有缺陷。 许多人认为SQL交互需要为查询处理提供一个昂贵的专门的运行时构建(例如,EDW)(Many believed SQL interactivity necessitates an expensive, specialized runtime built for query processing)。Shark将成为第一个基于Hadoop系统的交互式SQL之一,是唯一一个构建在通用运行框架(Spark)之上(Shark became one of the first interactive SQL on Hadoop systems, and was the only one built on top of a general runtime (Spark))。It demonstrated that none of the deficiencies that made Hive slow were fundamental, and a general engine such as Spark could marry the best of both worlds: it can be as fast as an EDW, and scales as well as Hive/MapReduce.

2. 从Shark到Spark SQL

Shark建立在Hive代码库上,通过交换Hive的物理执行引擎部分来实现性能提升(swapping out the physical execution engine part of Hive)。虽然这种方法使Shark用户能够加快其Hive查询,但Shark继承了Hive中庞大而复杂的代码库,从而难以优化和维护。 随着我们推动性能优化的边界,并将复杂分析与SQL集成,我们受到为MapReduce设计而遗留的限制。

正是由于这个原因,我们将结束Shark作为一个单独项目的开发,并将所有开发资源转移到Spark的新组件Spark SQL上。我们正在将我们在Shark中学到的内容应用到Spark SQL中,充分利用Spark的强大功能。这种新方法使我们能够更快地创新,并最终为用户带来更好的体验。

对于SQL用户,Spark SQL提供了最先进的SQL性能,并保持与Shark/Hive的兼容性。特别是像Shark一样,Spark SQL支持现有所有Hive数据格式,用户自定义函数(UDF)和Hive metastore。 随着将在Apache Spark 1.1.0中引入的功能,Spark SQL在TPC-DS性能方面比Shark好几乎一个数量级。

对于Spark用户,Spark SQL可以处理(半)结构化数据(Spark SQL becomes the narrow-waist for manipulating (semi-) structured data),以及从提供schema的数据源(如JSON,Parquet,Hive或EDW)中提取数据。它真正统一了SQL和复杂分析,允许用户混合和匹配SQL以及允许使用更多的命令式编程API进行高级分析。

对于开源黑客,Spark SQL提出了构建查询计划者的一种新颖优雅的方式。 在这个框架下添加新的优化是非常容易的。我们惊讶于 开源社区对Spark SQL所展示出的支持和热情,这在很大程度上得益于这一新设计。经过三个月的时间,40多个捐助者已经为此编写了代码。

3. Hive On Spark

虽然Spark SQL正在成为SQL on Spark的标准,但是我们确实意识到许多公司以及组织Hive的投资。 然而,这些组织中的很多也渴望迁移到Spark。Hive社区为该项目提出了一项新举措,将Spark添加为Hive的执行引擎之一。 对于这些组织,这项工作将为他们将执行迁移到Spark提供一条明确的途径。我们很高兴与Hive社区合作和支持,为最终用户提供平滑的体验。

总之,我们坚信Spark SQL将不仅是SQL,而且还是Spark进行结构化数据处理的未来。

原文:https://databricks.com/blog/2014/07/01/shark-spark-sql-hive-on-spark-and-the-future-of-sql-on-spark.html

目录
相关文章
|
7月前
|
SQL JSON 分布式计算
Spark SQL架构及高级用法
Spark SQL基于Catalyst优化器与Tungsten引擎,提供高效的数据处理能力。其架构涵盖SQL解析、逻辑计划优化、物理计划生成及分布式执行,支持复杂数据类型、窗口函数与多样化聚合操作,结合自适应查询与代码生成技术,实现高性能大数据分析。
|
11月前
|
SQL 分布式计算 IDE
如何在IDE中通过Spark操作Hive
通过以上方法和代码示例,你可以在IDE中成功通过Spark操作Hive,实现大规模数据处理和分析。确保理解每一步的实现细节,应用到实际项目中时能有效地处理各种复杂的数据场景。
577 28
|
11月前
|
SQL 分布式计算 关系型数据库
基于云服务器的数仓搭建-hive/spark安装
本文介绍了在本地安装和配置MySQL、Hive及Spark的过程。主要内容包括: - **MySQL本地安装**:详细描述了内存占用情况及安装步骤,涉及安装脚本的编写与执行,以及连接MySQL的方法。 - **Hive安装**:涵盖了从上传压缩包到配置环境变量的全过程,并解释了如何将Hive元数据存储配置到MySQL中。 - **Hive与Spark集成**:说明了如何安装Spark并将其与Hive集成,确保Hive任务由Spark执行,同时解决了依赖冲突问题。 - **常见问题及解决方法**:列举了安装过程中可能遇到的问题及其解决方案,如内存配置不足、节点间通信问题等。
基于云服务器的数仓搭建-hive/spark安装
|
11月前
|
SQL 分布式计算 资源调度
Dataphin功能Tips系列(48)-如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列
如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列
423 4
|
SQL 分布式计算 Java
Spark SQL向量化执行引擎框架Gluten-Velox在AArch64使能和优化
本文摘自 Arm China的工程师顾煜祺关于“在 Arm 平台上使用 Native 算子库加速 Spark”的分享,主要内容包括以下四个部分: 1.技术背景 2.算子库构成 3.算子操作优化 4.未来工作
1741 0
|
SQL JSON 分布式计算
【赵渝强老师】Spark SQL的数据模型:DataFrame
本文介绍了在Spark SQL中创建DataFrame的三种方法。首先,通过定义case class来创建表结构,然后将CSV文件读入RDD并关联Schema生成DataFrame。其次,使用StructType定义表结构,同样将CSV文件读入RDD并转换为Row对象后创建DataFrame。最后,直接加载带有格式的数据文件(如JSON),通过读取文件内容直接创建DataFrame。每种方法都包含详细的代码示例和解释。
363 0
|
SQL 分布式计算 大数据
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
358 0
|
SQL 数据采集 数据挖掘
大数据行业应用之Hive数据分析航班线路相关的各项指标
大数据行业应用之Hive数据分析航班线路相关的各项指标
474 1
|
9月前
|
SQL 分布式计算 大数据
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
本文深入介绍 Hive 与大数据融合构建强大数据仓库的实战指南。涵盖 Hive 简介、优势、安装配置、数据处理、性能优化及安全管理等内容,并通过互联网广告和物流行业案例分析,展示其实际应用。具有专业性、可操作性和参考价值。
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
|
SQL 分布式计算 Java
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
314 0