为什么说Spark SQL远远超越了MPP SQL
前言
这里说的并不是性能,因为我没尝试对比过(下文会有简单的说明),而是尝试从某种更高一层次的的角度去看,为什么Spark SQL 是远远超越MPP SQL的。
Spark SQL 和 MPP SQL 其实不在一个维度上。简而言之,
MPP SQL 是 Spark SQL 的一个子集
Spark SQL 成为了一种跨越领域的交互形态
MPP SQL 是 Spark SQL 的一个子...
查看全文 >>
为什么说Spark SQL远远超越了MPP SQL
这里说的并不是性能,因为我没尝试对比过(下文会有简单的说明),而是尝试从某种更高一层次的的角度去看,为什么Spark SQL 是远远超越MPP SQL的。
Spark SQL 和 MPP SQL 其实不在一个维度上。简而言之,
MPP SQL 是 Spark SQL 的一个子集
Spark SQL 成为了一种跨越领域的交互形态
MPP SQL 是 Spark SQL 的一个子集
MPP SQL ...
查看全文 >>
使用Spark SQL构建交互式查询引擎
前言
StreamingPro 原来仅仅是用来作为Spark Streaming的一个配置化+SQL封装,然而不经意间,已经涵盖了批处理,交互式查询等多个方面。今天就讲讲如何使用StreamingPro构建一个交互式查询引擎。
准备工作
下载StreamingPro
README中有下载地址
如果你使用了 Spark 2.0 版本,则要下载对应页面上的Spark 安装包。因为目前Sp...
查看全文 >>
Spark SQL概念学习系列之SQL on Spark的简介(三)
AMPLab 将大数据分析负载分为三大类型:批量数据处理、交互式查询、实时流处理。而其中很重要的一环便是交互式查询。
大数据分析栈中需要满足用户 ad-hoc、reporting、 iterative 等类型的查询需求,也需要提供 SQL 接口来兼容原有数据库用户的使用习惯,同时也需要 SQL 能够进行关系模式的重组。完成这些重要的 SQL 任务的便是 Spark SQL 和 Shark 这...
查看全文 >>
8月27日 Spark 社区直播【OAP Spark 优化介绍: 通过索引和缓存优化交互式查询性能】
主题:
OAP Spark 优化介绍: 通过索引和缓存优化交互式查询性能
直播时间:
8月27日 19:00
观看方式:
届时进入直播间(回看链接也是这个):https://developer.aliyun.com/live/43848?spm=5176.8068049.0.0.27366d19Q1XzyT
或扫描下方钉钉群二维码进群观看
讲师介绍:
陈海锋,英特尔亚太研发有限公司大数据部门的高...
查看全文 >>
《Spark大数据分析实战》——3.1节SQL on Spark
本节书摘来自华章社区《Spark大数据分析实战》一书中的第3章,第3.1节SQL on Spark,作者高彦杰 倪亚宇,更多章节内容可以访问云栖社区“华章社区”公众号查看
3.1 SQL on SparkAMPLab将大数据分析负载分为三大类型:批量数据处理、交互式查询、实时流处理。而其中很重要的一环便是交互式查询。大数据分析栈中需要满足用户ad-hoc、reporting、iterative等...
查看全文 >>
Spark 概念学习系列之Spark生态系统BDAS(五)
目前,Spark已经发展成为包含众多子项目的大数据计算平台。 伯克利将Spark的整个生态系统称为伯克利数据分析栈(BDAS)。 其核心框架是Spark,同时BDAS涵盖支持结构化数据SQL查询与分析的查询引擎Spark SQL和Shark,提供机器学习功能的系统MLbase及底层的分布式机器学习库MLlib、 并行图计算框架GraphX、 流计算框架Spark Streaming、 采样近...
查看全文 >>
[Spark]Shark, Spark SQL, Hive on Spark以及SQL On Spark的未来
随着Spark SQ的引入以及Hive On Apache Spark的新功能(HIVE-7292)的引入,我们对这两个项目的立场以及它们与Shark的关系有了很多的关注。在今天的Spark Summit上,我们宣布我们正在停止Shark的开发,并将资源全部集中在Spark SQL上,这将为现有Shark用户提供一个Shark特色的圈子(will provide a superset of Sh...
查看全文 >>
《Spark大数据处理:技术、应用与性能优化》——1.2 Spark生态系统BDAS
本节书摘来自华章计算机《Spark大数据处理:技术、应用与性能优化》一书中的第1章,第1.2节,作者:高彦杰 更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1.2 Spark生态系统BDAS
目前,Spark已经发展成为包含众多子项目的大数据计算平台。伯克利将Spark的整个生态系统称为伯克利数据分析栈(BDAS)。其核心框架是Spark,同时BDAS涵盖支持结构化数据SQL查询与分析...
查看全文 >>
如何选择满足需求的SQL on Hadoop/Spark系统
在批处理时代,Hive一枝独秀;在实时交互式查询时代,呈现出的是百花齐放的局面。Hive onTez, Hive on Spark, Spark SQL, Impala等等,目前看也没有谁干掉谁的趋势。引用今年图灵奖得主Michael Stonebraker的话说,现在的数据库领域已经不是”one size fit all”的时代了。那么面对这么多系统,我们改如何选择呢?这里谈谈这些系统的区别和...
查看全文 >>