颠覆大数据分析之Shark:分布式系统上的SQL接口

简介:
+关注继续查看

内存计算已经成为了海量数据分析的一个重要范式。这一点可以从两个方面来进行理解。一方面,尽管当要查询的数据达到了PB级,但是由于时间和空间的局限性,在一个集群环境上仅需64GB的缓存就能够满足绝大多数的查询(95%)。Ananthanarayanan等人在一次研究中发现了这点。另一方面,由于机器学习算法需要在数据的工作集上进行迭代,如果工作数据集在内存中,它的实现会变得非常高效。Shark本质上可以看作是一个内存型的分布式SQL系统。

Shark基于Spark提供了SQL接口。Shark的主要特性就是它的SQL接口以及它能够基于机器学习来进行分析的能力,同时还有它为SQL查询和机器学习算法所提供的细粒度的容错性。对于查询而言,即使是粗粒度的RDD也能工作得很好,因为Shark可以从失败中进行恢复,它会去重新构造集群中丢失的RDD分区。这个恢复是细粒度的,这意味着它可以在查询的过程中进行恢复,并不像并行数据库系统那样得重新执行整个查询。

相关文章
|
2月前
|
SQL 存储 Java
JDBC Statement:执行 SQL 语句的重要接口
在Java应用程序中,与数据库进行交互是一项常见的任务。为了执行数据库操作,我们需要使用JDBC(Java Database Connectivity)来建立与数据库的连接并执行SQL语句。Statement接口是JDBC中的一个重要接口,它用于执行SQL语句并与数据库进行交互。本文将详细介绍Statement接口的使用,包括如何创建Statement对象、执行SQL语句、处理结果等内容。
30 0
|
5月前
|
SQL 前端开发 Java
案例06-复用思想的接口和SQL
复用思想的接口和SQL
|
5月前
|
SQL JSON API
PHP读取数据库记录转换为JSON的代码(API接口的SQL语句)
PHP读取数据库记录转换为JSON的代码(API接口的SQL语句)
40 0
|
5月前
|
SQL 存储 算法
JAVA代码优化,接口优化,SQL优化 (小技巧)(七)
JAVA代码优化,接口优化,SQL优化 (小技巧)(七)
143 0
|
5月前
|
SQL Java 数据库
JAVA代码优化,接口优化,SQL优化 (小技巧)(六)
JAVA代码优化,接口优化,SQL优化 (小技巧)(六)
61 0
|
5月前
|
SQL 缓存 监控
JAVA代码优化,接口优化,SQL优化 (小技巧)(五)
JAVA代码优化,接口优化,SQL优化 (小技巧)(五)
62 0
|
5月前
|
SQL 缓存 NoSQL
JAVA代码优化,接口优化,SQL优化 (小技巧)(四)
JAVA代码优化,接口优化,SQL优化 (小技巧)(四)
121 0
|
5月前
|
SQL 存储 监控
JAVA代码优化,接口优化,SQL优化 (小技巧)(三)
JAVA代码优化,接口优化,SQL优化 (小技巧)(三)
87 0
|
5月前
|
SQL 设计模式 缓存
JAVA代码优化,接口优化,SQL优化 (小技巧)(二)
JAVA代码优化,接口优化,SQL优化 (小技巧)(二)
110 0
|
5月前
|
SQL 缓存 druid
JAVA代码优化,接口优化,SQL优化 (小技巧)(一)
JAVA代码优化,接口优化,SQL优化 (小技巧)(一)
164 0
推荐文章
更多