开发者社区> 行者武松> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

HBase 的 Spark SQL Astro

简介:
+关注继续查看

Astro 详细介绍

华为2015年7月20日在O'Reilly Open Source Convention (OSCON) 上宣布Spark SQL on HBase package正式开源。Spark SQL on HBase package 项目又名 Astro,端到端整合了 Spark,Spark SQL和HBase的能力,有助于推动帮助Spark进入NoSQL的广泛客户群,并提供强大的在线查询和分析以及在垂直企业大规模数据处理能力。

Apache HBase 是数据在 HDFS 上的 Key-Value 存储。它用来给 Google 的 Big Table 建模,并提供了 API 用于查询数据。这些数据通过它的“row keys”来组织、区分和发布。在每个分区上,数据被指定的“列”数据集合“列族”物理分区。这些数据模型是宽且零散的,在这些表中列是动态的,零散的。

尽管 HBase 是非常有用的大数据存储,但是它的访问机制非常原始,只能通过客户端的 API,Map/Reduce 接口和交互的 shell。SQL 访问 HBase 数据可通过 Map/Reduce 或者接口机制,如 Apache Hive 和 Impala,或者一些“本地的” SQL 技术,如 Apache Phoenix。前者实现和使用起来通常比较便宜,它们的延迟和效率通常不如后者,并且只适用于离线分析。后者,与之相反,通常执行得更好,并且限定多个作为联机引擎。它们通常在特定的执行引擎的顶层。

当前的 Astro 1.0 依赖于 Spark 1.4.0,HBase 0.98

构建方法(要求 Maven):

$ git clone https://github.com/HuaweiBigData/astro
$ cd astro
$ mvn -DskipTests clean install 
$ mvn clean install
$mvn -Phbase,hadoop-2.4 test  #运行测试

文章转载自 开源中国社区[https://www.oschina.net]

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
Spark-SparkSQL深入学习系列三(转自OopsOutOfMemory)
  /** Spark SQL源码分析系列文章*/     前面几篇文章讲解了Spark SQL的核心执行流程和Spark SQL的Catalyst框架的Sql Parser是怎样接受用户输入sql,经过解析生成Unresolved Logical Plan的。
989 0
Spark-SparkSQL深入学习系列十(转自OopsOutOfMemory)
    /** Spark SQL源码分析系列文章*/     前面讲到了Spark SQL In-Memory Columnar Storage的存储结构是基于列存储的。
954 0
Spark-SparkSQL深入学习系列九(转自OopsOutOfMemory)
  /** Spark SQL源码分析系列文章*/     Spark SQL 可以将数据缓存到内存中,我们可以见到的通过调用cache table tableName即可将一张表缓存到内存中,来极大的提高查询效率。
1103 0
Spark-SparkSQL深入学习系列八(转自OopsOutOfMemory)
 /** Spark SQL源码分析系列文章*/  在SQL的世界里,除了官方提供的常用的处理函数之外,一般都会提供可扩展的对外自定义函数接口,这已经成为一种事实的标准。
1282 0
Spark-SparkSQL深入学习系列一(转自OopsOutOfMemory)
 /** Spark SQL源码分析系列文章*/     自从去年Spark Submit 2013 Michael Armbrust分享了他的Catalyst,到至今1年多了,Spark SQL的贡献者从几人到了几十人,而且发展速度异常迅猛,究其原因,个人认为有以下2点:     1、整合:将SQL类型的查询语言整合到 Spark 的核心RDD概念里。
1343 0
Spark-SparkSQL深入学习系列二(转自OopsOutOfMemory)
   /** Spark SQL源码分析系列文章*/     Spark SQL的核心执行流程我们已经分析完毕,可以参见Spark SQL核心执行流程,下面我们来分析执行流程中各个核心组件的工作职责。
1100 0
Spark-SparkSQL深入学习系列七(转自OopsOutOfMemory)
  /** Spark SQL源码分析系列文章*/   接上一篇文章Spark SQL Catalyst源码分析之Physical Plan,本文将介绍Physical Plan的toRDD的具体实现细节:   我们都知道一段sql,真正的执行是当你调用它的collect()方法才会执行Spark Job,最后计算得到RDD。
962 0
Spark-SparkSQL深入学习系列六(转自OopsOutOfMemory)
  /** Spark SQL源码分析系列文章*/   前面几篇文章主要介绍的是Spark sql包里的的spark sql执行流程,以及Catalyst包内的SqlParser,Analyzer和Optimizer,最后要介绍一下Catalyst里最后的一个Plan了,即Physical Plan。
1168 0
Spark-SparkSQL深入学习系列五(转自OopsOutOfMemory)
  /** Spark SQL源码分析系列文章*/   前几篇文章介绍了Spark SQL的Catalyst的核心运行流程、SqlParser,和Analyzer 以及核心类库TreeNode,本文将详细讲解Spark SQL的Optimizer的优化思想以及Optimizer在Catalyst里的表现方式,并加上自己的实践,对Optimizer有一个直观的认识。
1034 0
Spark-SparkSQL深入学习系列四(转自OopsOutOfMemory)
  /** Spark SQL源码分析系列文章*/     前几篇文章介绍了Spark SQL的Catalyst的核心运行流程、SqlParser,和Analyzer,本来打算直接写Optimizer的,但是发现忘记介绍TreeNode这个Catalyst的核心概念,介绍这个可以更好的理解Optimizer是如何对Analyzed Logical Plan进行优化的生成Optimized Logical Plan,本文就将TreeNode基本架构进行解释。
1152 0
+关注
行者武松
杀人者,打虎武松也。
文章
问答
文章排行榜
最热
最新
相关电子书
更多
GeoMesa on Spark SQL
立即下载
云HBaseSQL及分析 ——Phoenix&Spark
立即下载
Experiences Migrating Hive Workload to SparkSQL
立即下载