kudu入门_应用场景_方案三|学习笔记

简介: 快速学习kudu入门_应用场景_方案三

开发者学堂课程【2020版大数据实战项目之DMP广告系统(第一阶段)kudu入门_应用场景_方案三】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/676/detail/11749


kudu入门_应用场景_方案三


kudu入门_应用场景_方案三SparkS treaming+HBase

本项目的场景是必须对项目进行流式处理,在进行流式处理的时候要找一个存储层去存储源源不断过来的消息和事件,那么 SparkS treaming 要落地到 HDFS 中。前面两个方案的问题就在于 HDFS 不适合进行实时的数据插入,HDFS适合离线批量大规模数据分析。对于实时的数据存储,HBase更合适一些,HBase 的目标为在 HDFS 之上提供一个类似与表的服务,类似于数据库的层虽然 HBase 适合实时的低延迟的数据存储,但是对于历史的大规模数据的分析和扫描性能是比较差的,因为在访问 HBase 的时候是通过一个统一的入口来的。所以它不适合像 HDFS 那样的大规模批量的分析,而 HDFS 上有很多文件格式,比如说Parquet,Parquet离线大规模数据分析存储量非常高,现阶段模式 Parquet 储存量应该是最高的,但它放在 HDFS 上才能产生威力,所以还要结合 HDFS 和 Parquet 来做这件事。

Spark Streaming 在插入数据的时候是不应该往 HDFS 上插,应该插到HBase上面,但是要使用 SQL,Spark 和 HBase 来进行交互的话,HBase 对于大规模的数据处理分析又存在弊端。此时可以再加一层 HDFS Parquet 层,HBase 一直接收外部的数据,外部的数据处理完了及时放到 HBase 中,落地到 HBase 以后,HBase 收集到一部分数据以后同步到 HDFS,这个时候外部在进行批量的大规模的离线的数据分析的时候,可以直接找 HDFS 来进行分析。所以可以把 HBase 和 HDFS 结合起来,去做适合的事情。

image.png

但这种方案又存在一定的问题,因为要将数据库的内容同步到文件系统中,在做这件事的时候,会在维护方面产生巨大的成本,因为它是主从这样的结构。HBase里面收集一部分数据同步给 HDFS,但 HBase 中永远会有一部分数据没有同步给 HDFS,所以要进行全局统一的数据查询就不太容易做到做到。两个主要问题如下:

(1)维护特别复杂,因为需要在不同的存储间复制数据

(2)难以进行统一的查询,因为实时数据和离线数据不在同一个地方

这种方案,也称之为 Lambda,分为实时层和批层处理,通过这些这么复杂的方案,其实想做的就是一件事,流式数据的存储和快速查询。

相关实践学习
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
相关文章
|
1月前
|
运维 监控 Java
面经:Storm实时计算框架原理与应用场景
【4月更文挑战第11天】本文是关于Apache Storm实时流处理框架的面试攻略和核心原理解析。文章分享了面试常见主题,包括Storm的架构与核心概念(如Spout、Bolt、Topology、Tuple和Ack机制),编程模型与API,部署与运维,以及应用场景与最佳实践。通过代码示例展示了如何构建一个简单的WordCountTopology,强调理解和运用Storm的关键知识点对于面试和实际工作的重要性。
79 4
面经:Storm实时计算框架原理与应用场景
|
1月前
|
资源调度 Kubernetes Oracle
实时计算 Flink版产品使用合集之三种集群模式各有啥优缺点,生产环境如何选择
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
存储 SQL 分布式计算
大数据存储组件TiDB原理+实战篇2
大数据存储组件TiDB原理+实战篇
|
存储 SQL NoSQL
大数据存储组件TiDB原理+实战篇1
大数据存储组件TiDB原理+实战篇
|
SQL 存储 大数据
kudu入门_应用场景_方案二|学习笔记
快速学习kudu入门_应用场景_方案二
90 0
kudu入门_应用场景_方案二|学习笔记
|
SQL 消息中间件 存储
Kudu入门_应用场景_方案一|学习笔记
快速学习Kudu入门_应用场景_方案一
92 0
Kudu入门_应用场景_方案一|学习笔记
|
存储 数据可视化 大数据
Kudu入门_应用场景_项目介绍|学习笔记
快速学习Kudu入门_应用场景_项目介绍
106 0
Kudu入门_应用场景_项目介绍|学习笔记
|
存储 数据挖掘 分布式数据库
kudu入门 _应用场景_kudu|学习笔记
快速学习kudu入门 _应用场景_kudu
93 0
kudu入门 _应用场景_kudu|学习笔记
|
存储 分布式计算 Java
HBase基本知识和应用场景
HBase基本知识和应用场景
394 0
HBase基本知识和应用场景
|
存储 自然语言处理 算法
ClickHouse设计原理简介(下)
ClickHouse设计原理简介(下)
329 0
ClickHouse设计原理简介(下)