kudu入门_应用场景_方案三|学习笔记

简介: 快速学习kudu入门_应用场景_方案三

开发者学堂课程【2020版大数据实战项目之DMP广告系统(第一阶段)kudu入门_应用场景_方案三】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/676/detail/11749


kudu入门_应用场景_方案三


kudu入门_应用场景_方案三SparkS treaming+HBase

本项目的场景是必须对项目进行流式处理,在进行流式处理的时候要找一个存储层去存储源源不断过来的消息和事件,那么 SparkS treaming 要落地到 HDFS 中。前面两个方案的问题就在于 HDFS 不适合进行实时的数据插入,HDFS适合离线批量大规模数据分析。对于实时的数据存储,HBase更合适一些,HBase 的目标为在 HDFS 之上提供一个类似与表的服务,类似于数据库的层虽然 HBase 适合实时的低延迟的数据存储,但是对于历史的大规模数据的分析和扫描性能是比较差的,因为在访问 HBase 的时候是通过一个统一的入口来的。所以它不适合像 HDFS 那样的大规模批量的分析,而 HDFS 上有很多文件格式,比如说Parquet,Parquet离线大规模数据分析存储量非常高,现阶段模式 Parquet 储存量应该是最高的,但它放在 HDFS 上才能产生威力,所以还要结合 HDFS 和 Parquet 来做这件事。

Spark Streaming 在插入数据的时候是不应该往 HDFS 上插,应该插到HBase上面,但是要使用 SQL,Spark 和 HBase 来进行交互的话,HBase 对于大规模的数据处理分析又存在弊端。此时可以再加一层 HDFS Parquet 层,HBase 一直接收外部的数据,外部的数据处理完了及时放到 HBase 中,落地到 HBase 以后,HBase 收集到一部分数据以后同步到 HDFS,这个时候外部在进行批量的大规模的离线的数据分析的时候,可以直接找 HDFS 来进行分析。所以可以把 HBase 和 HDFS 结合起来,去做适合的事情。

image.png

但这种方案又存在一定的问题,因为要将数据库的内容同步到文件系统中,在做这件事的时候,会在维护方面产生巨大的成本,因为它是主从这样的结构。HBase里面收集一部分数据同步给 HDFS,但 HBase 中永远会有一部分数据没有同步给 HDFS,所以要进行全局统一的数据查询就不太容易做到做到。两个主要问题如下:

(1)维护特别复杂,因为需要在不同的存储间复制数据

(2)难以进行统一的查询,因为实时数据和离线数据不在同一个地方

这种方案,也称之为 Lambda,分为实时层和批层处理,通过这些这么复杂的方案,其实想做的就是一件事,流式数据的存储和快速查询。

相关实践学习
lindorm多模间数据无缝流转
展现了Lindorm多模融合能力——用kafka API写入,无缝流转在各引擎内进行数据存储和计算的实验。
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
相关文章
|
1月前
|
存储 分布式计算 NoSQL
大数据-144 Apache Kudu 基本概述 数据模型 使用场景
大数据-144 Apache Kudu 基本概述 数据模型 使用场景
36 0
|
3月前
|
分布式计算 大数据 分布式数据库
"揭秘HBase MapReduce高效数据处理秘诀:四步实战攻略,让你轻松玩转大数据分析!"
【8月更文挑战第17天】大数据时代,HBase以高性能、可扩展性成为关键的数据存储解决方案。结合MapReduce分布式计算框架,能高效处理HBase中的大规模数据。本文通过实例展示如何配置HBase集群、编写Map和Reduce函数,以及运行MapReduce作业来计算HBase某列的平均值。此过程不仅限于简单的统计分析,还可扩展至更复杂的数据处理任务,为企业提供强有力的大数据技术支持。
63 1
|
监控 大数据 分布式数据库
|
存储 SQL NoSQL
大数据存储组件TiDB原理+实战篇1
大数据存储组件TiDB原理+实战篇
|
存储 SQL 分布式计算
大数据存储组件TiDB原理+实战篇2
大数据存储组件TiDB原理+实战篇
|
SQL 消息中间件 存储
Kudu入门_应用场景_方案一|学习笔记
快速学习Kudu入门_应用场景_方案一
109 0
Kudu入门_应用场景_方案一|学习笔记
|
SQL 存储 大数据
kudu入门_应用场景_方案二|学习笔记
快速学习kudu入门_应用场景_方案二
103 0
kudu入门_应用场景_方案二|学习笔记
|
存储 数据可视化 大数据
Kudu入门_应用场景_项目介绍|学习笔记
快速学习Kudu入门_应用场景_项目介绍
129 0
Kudu入门_应用场景_项目介绍|学习笔记
|
存储 数据挖掘 分布式数据库
kudu入门 _应用场景_kudu|学习笔记
快速学习kudu入门 _应用场景_kudu
123 0
kudu入门 _应用场景_kudu|学习笔记