kudu入门_应用场景_方案三|学习笔记

简介: 快速学习kudu入门_应用场景_方案三

开发者学堂课程【2020版大数据实战项目之DMP广告系统(第一阶段)kudu入门_应用场景_方案三】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/676/detail/11749


kudu入门_应用场景_方案三


kudu入门_应用场景_方案三SparkS treaming+HBase

本项目的场景是必须对项目进行流式处理,在进行流式处理的时候要找一个存储层去存储源源不断过来的消息和事件,那么 SparkS treaming 要落地到 HDFS 中。前面两个方案的问题就在于 HDFS 不适合进行实时的数据插入,HDFS适合离线批量大规模数据分析。对于实时的数据存储,HBase更合适一些,HBase 的目标为在 HDFS 之上提供一个类似与表的服务,类似于数据库的层虽然 HBase 适合实时的低延迟的数据存储,但是对于历史的大规模数据的分析和扫描性能是比较差的,因为在访问 HBase 的时候是通过一个统一的入口来的。所以它不适合像 HDFS 那样的大规模批量的分析,而 HDFS 上有很多文件格式,比如说Parquet,Parquet离线大规模数据分析存储量非常高,现阶段模式 Parquet 储存量应该是最高的,但它放在 HDFS 上才能产生威力,所以还要结合 HDFS 和 Parquet 来做这件事。

Spark Streaming 在插入数据的时候是不应该往 HDFS 上插,应该插到HBase上面,但是要使用 SQL,Spark 和 HBase 来进行交互的话,HBase 对于大规模的数据处理分析又存在弊端。此时可以再加一层 HDFS Parquet 层,HBase 一直接收外部的数据,外部的数据处理完了及时放到 HBase 中,落地到 HBase 以后,HBase 收集到一部分数据以后同步到 HDFS,这个时候外部在进行批量的大规模的离线的数据分析的时候,可以直接找 HDFS 来进行分析。所以可以把 HBase 和 HDFS 结合起来,去做适合的事情。

image.png

但这种方案又存在一定的问题,因为要将数据库的内容同步到文件系统中,在做这件事的时候,会在维护方面产生巨大的成本,因为它是主从这样的结构。HBase里面收集一部分数据同步给 HDFS,但 HBase 中永远会有一部分数据没有同步给 HDFS,所以要进行全局统一的数据查询就不太容易做到做到。两个主要问题如下:

(1)维护特别复杂,因为需要在不同的存储间复制数据

(2)难以进行统一的查询,因为实时数据和离线数据不在同一个地方

这种方案,也称之为 Lambda,分为实时层和批层处理,通过这些这么复杂的方案,其实想做的就是一件事,流式数据的存储和快速查询。

相关实践学习
lindorm多模间数据无缝流转
展现了Lindorm多模融合能力——用kafka API写入,无缝流转在各引擎内进行数据存储和计算的实验。
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
相关文章
|
8月前
|
存储 分布式计算 大数据
HBase分布式数据库关键技术与实战:面试经验与必备知识点解析
【4月更文挑战第9天】本文深入剖析了HBase的核心技术,包括数据模型、分布式架构、访问模式和一致性保证,并探讨了其实战应用,如大规模数据存储、实时数据分析及与Hadoop、Spark集成。同时,分享了面试经验,对比了HBase与其他数据库的差异,提出了应对挑战的解决方案,展望了HBase的未来趋势。通过Java API代码示例,帮助读者巩固理解。全面了解和掌握HBase,能为面试和实际工作中的大数据处理提供坚实基础。
489 3
|
8天前
|
存储 物联网 大数据
探索阿里云 Flink 物化表:原理、优势与应用场景全解析
阿里云Flink的物化表是流批一体化平台中的关键特性,支持低延迟实时更新、灵活查询性能、无缝流批处理和高容错性。它广泛应用于电商、物联网和金融等领域,助力企业高效处理实时数据,提升业务决策能力。实践案例表明,物化表显著提高了交易欺诈损失率的控制和信贷审批效率,推动企业在数字化转型中取得竞争优势。
48 14
|
3月前
|
存储 分布式计算 NoSQL
大数据-144 Apache Kudu 基本概述 数据模型 使用场景
大数据-144 Apache Kudu 基本概述 数据模型 使用场景
50 0
|
8月前
|
运维 监控 Java
面经:Storm实时计算框架原理与应用场景
【4月更文挑战第11天】本文是关于Apache Storm实时流处理框架的面试攻略和核心原理解析。文章分享了面试常见主题,包括Storm的架构与核心概念(如Spout、Bolt、Topology、Tuple和Ack机制),编程模型与API,部署与运维,以及应用场景与最佳实践。通过代码示例展示了如何构建一个简单的WordCountTopology,强调理解和运用Storm的关键知识点对于面试和实际工作的重要性。
511 4
面经:Storm实时计算框架原理与应用场景
|
8月前
|
资源调度 Kubernetes Oracle
实时计算 Flink版产品使用合集之三种集群模式各有啥优缺点,生产环境如何选择
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
178 0
|
8月前
|
分布式计算 API 数据处理
Flink【基础知识 01】(简介+核心架构+分层API+集群架构+应用场景+特点优势)(一篇即可大概了解flink)
【2月更文挑战第15天】Flink【基础知识 01】(简介+核心架构+分层API+集群架构+应用场景+特点优势)(一篇即可大概了解flink)
176 1
|
8月前
|
存储 消息中间件 分布式计算
Apache Hudi典型应用场景知多少?
Apache Hudi典型应用场景知多少?
113 0
|
存储 SQL NoSQL
大数据存储组件TiDB原理+实战篇1
大数据存储组件TiDB原理+实战篇
|
SQL 消息中间件 存储
Kudu入门_应用场景_方案一|学习笔记
快速学习Kudu入门_应用场景_方案一
118 0
Kudu入门_应用场景_方案一|学习笔记

热门文章

最新文章

下一篇
开通oss服务