开发者社区> 云hbase+spark> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

阿里云NoSQL X-Pack如何做到在线存储及计算一体?

简介: 大数据处理的挑战随着企业数据的逐渐积累和增多,数据架构从单节点的关系型数据库,演进到分库分表,再演进到NoSQL及hadoop生态。hadoop生态百花齐放,没有统一的架构标准,目前用的比较多的是Lambda架构,该架构主要特点为流计算、批处理、在线存储独立的,通过pipline来连接。
+关注继续查看

HBase用户福利

新用户9.9元即可使用6个月云数据库HBase,更有低至1元包年的入门规格供广大HBase爱好者学习研究,更多内容请参考链接

大数据处理的挑战

随着企业数据的逐渐积累增多,数据架构从单节点的关系型数据库,演进到分库分表,再演进到NoSQL及hadoop生态。hadoop生态百花齐放,没有统一的架构标准,目前用的比较多的是Lambda架构,该架构主要特点为流计算、批处理、在线存储独立的,通过pipline来连接。


c604a0501e462bcdfcad079498cfa04def5666a7.png

大数据Lambda架构比较复杂,流、批、在线存储需要独立建设,同时需要构建数据pipline来做数据交换流动。
  • 数据写入:批处理、流处理、在线存储需要分别写入数据。一方面流及批两层需要独立写入数据,同时很多大数据业务数据也会直接写入mongoDB、Cassandra、HBase、Redis等NoSQL系统这样的在线存储系统。
  • 数据交换:批处理、在线存储之间交换需要构建大量ETL批作业
  • 数据质量:批处理、流处理、在线存储需要分别写入数据,会导致数据维护繁琐,不同写入链路的数据可能不一致
  • 系统稳定性:Lambda架构批计算层和在线存储层需要做频繁的数据交换,且都是批处理直接通过在线存储API抽取数据以及回流,大数据量场景会影响在线存储的稳定性

NoSQL X-Pack构建大数据在线存储及计算一体化架构

为了从架构上解决上面这些问题云X-Pack Spark提供了一键流式归档NoSQL数据库的日志到spark离线数仓的能力。写入mongoDB、Cassandra、HBase的在线存储明细数据,可以自动归档到Spark离线数仓然后做复杂计算、机器学习等。云X-Pack Spark产品文档

X-Pack Spark一键流式归档

X-Pack Spark 一键归档支持将 Cassandra、HBase、mongoDB数据通过增量日志方式归档到 X-Pack Spark 数据仓库(对在线业务稳定性无影响),在 X-Pack Spark集群进行数据计算性能大幅提升。整体架构如下:


be5b76c325e20aec24e1482fb131ace2eaff8462.png

X-Pack Spark 一键归档模式推出了”大数据在线存储和计算一体化”架构,具有以下优点:

  • 数据一致性:避免双写;业务直接写NoSQL系统,数据自动归档到spark离线数仓
  • 稳定性:异步log同步到spark数仓,对NoSQL在线业务稳定性没有任何影响
  • 性能:spark分析列存,比直接分析NoSQL数据库性能大幅提升
  • 限制:目前X-Pack Spark一键流式归档上线支持了hbase,Phoenix、MongoDB、Cassandra敬请期待

归档数据计算

数据会周期的归档到spark的离线数仓(HiveMeta),然后可以直接在x-pack spark中查看数据以及计算


fb42f7371d523465c52b4bde36b35f1c8c0fc2a3.png

阿里云NoSQL数据库其他动态

阿里云Cassandra数据库正式公测,提供免费试用:https://www.aliyun.com/product/cds

xxx

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
阿里云对象存储OSS可以关闭吗?
误操作开通了对象存储OSS如何关闭?
58 0
第1期:一图了解阿里云对象存储OSS
阿里云对象存储OSS是一款海量,安全,低成本,高可靠的云存储服务。跟着阿里云内容设计中心来一起了解一下OSS吧~
342 0
阿里云对象存储OSS版本控制收费吗?有必要开通吗?
阿里云对象存储OSS是一种海量、安全、低成本、高可靠的云存储服务,版本控制是一种数据保护机制,开启版本控制后,针对数据的覆盖和删除操作将会以历史版本的形式保存下来,那么版本控制如何收费?有必要开通版本控制吗?
2749 0
阿里巴巴开源GNN框架Graph-Learn
项目地址:https://github.com/alibaba/graph-learn 阿里巴巴近期开源了面向图神经网络(GNN)的框架Graph-Learn(GL,原AliGraph)。框架由阿里内部团队研发,研发同学分别来自计算平台事业部-PAI团队,新零售智能引擎事业群-智能计算实验室,以及安全部-数据与算法团队。
2927 0
使用CSS3绘制关闭以及箭头图标
Title div { float: left; margin-right: 5%; ...
816 0
【云栖大会】阿里云如何“计算”地震?
每次我们拼尽全力记下的数据,都只是抬高知识瀚海的涓涓细流。当我们提笔开始繁复演算的时候,期待的是阿基米德跳出浴缸、牛顿举起苹果的那一刻。王伟涛博士正是这样计算的执笔人,他来自中国地震局。他想知道的,是我们脚下大地的每个细节。
2462 0
文章
问答
来源圈子
更多
文章排行榜
最热
最新
相关电子书
更多
高性能召回引擎在在线零售场景中的最佳实践(北飞)
立即下载
MongoDB 应用数据平台助力快速构建您的应用
立即下载
如何使用Tair增强数据结构构建丰富在线实时场景
立即下载