实时数仓宽表加工解决方案

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 实时数仓宽表加工解决方案

一.实时数据仓库与离线数据仓库

由于离线数据每天凌晨拉去线上生成数据库(凌晨请求较少,减少线上库压力),导致数据是T+1,而对于一些时效性要求较强的场景。比如需要看现在的用户数、GMV等等,离线方案就很难解决了。

实时数据仓库就是刚好为了满足时效性要求较高的场景下而生的,但是在做实时数据仓库中经常会遇到一些问题。离线由于表数据都同步到数据仓库中,可以进行随意关联,出一些业务想要的统计结果。但是实时数据,一般是接收线上发送的实时消息或者同步mysql的binlog消息,进行消费的。

这就会出现如果消息来自不同源头,需要对这些消息进行整合关联,不同消息的先后顺序无法保证?关联关系如果比较复杂,不像离线数仓通过sql进行关联,处理效果也会较差。

二.问题

下面是在实时数据仓库加工过程中,经常会遇到的一些问题:

1.需要关联维表信息(与离线数仓类似需要关联维表信息,但是实时数据中并没有维表信息)

2.接收多个消息,消息先后顺序无法保证(离线中数据都已经同步,不存在先后问题)

3.一条与信息相关的所有消息是否全部到达(离线可以看作是当天的快照,但实时没办法判断是否全部到达)

三、解决方案

针对上述问题、结合工作中的遇到的一些场景,做一些总结,探讨下实时宽表加工方案:

1.如何关联维表信息问题:比如说我们计算订单相关数据,需要查询部门或者收货地址的地区等等,需要关联部门相关的维表或者地址信息维表。

解决方案:将sku相关的部门信息(T+1)同步到redis、hbase中作为缓存,查询的时候可以先查询缓存中的数据,如果没有查询到再去查询线上接口,能够有效的减少线上接口的压力。

2.多个消息无法保证先后顺序问题:还拿订单场景为例,比如我们需要统计订单支付金额,涉及到下单消息、支付消息,正常情况(支付消息后来,但是没办法保证)

解决方案:将消息进行分别存储至hbase,(1)下单消息到了去查询支付消息表,找到了进行下发;没找到进行存储;(2)支付消息先到达,查询下单消息,查询到了下发;没查询到进行存储

3.如何判断一条与信息相关的消息是否全部到达问题:订单场景下,一个订单多个消息(下单消息A、支付消息B、取消消息C等等),怎么能保证一个订单下的所有消息都达到了呢?比如说:订单od1是不是支付了呢?是不是取消了呢?这些

解决方案:不管消息是否全部到达,进行存储至hbase,同时取出该订单相关的所有消息进行下发。

下发出来的数据:

(1)A

(2)A、B

(3)A、B、C

可以看到上述总共发了3次消息,其中A消息发了3次,B消息发了2次,C消息发了1次。可以解决无论哪个消息先到达,只需要根据业务进行判断是否符合条件,进行处理即可。在处理的过程中对每个消息进行幂等处理即可,保证消息不会重复计算。这样既能保证不用讨论消息的先后顺序,又可以保证处理所有的消息,使计算逻辑准确无误。

四、总结

实时数据仓库在保证时效性的同时,难免处理方案不像离线数据那样简单,但如果为了时效性,做一些处理也是在所难免的,毕竟大家更希望看到的是当前的用户量是多少,当前销售额是多少,而不是昨天的。

 


相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
相关文章
|
6天前
|
存储 机器学习/深度学习 监控
阿里云 Hologres OLAP 解决方案评测
随着大数据时代的到来,企业面临着海量数据的挑战,如何高效地进行数据分析和决策变得尤为重要。阿里云推出的 Hologres OLAP(在线分析处理)解决方案,旨在为用户提供快速、高效的数据分析能力。本文将深入探讨 Hologres OLAP 的特点、优势以及应用场景,并针对方案的技术细节、部署指导、代码示例和数据分析需求进行评测。
39 7
|
11天前
|
监控 容灾 关系型数据库
Hologres 的高可用性与容灾解决方案
【9月更文第1天】随着企业对实时数据分析的需求不断增加,数据仓库不仅要具备高性能的查询能力,还需要具备高可用性和灾难恢复的能力。Hologres 作为一款基于 PostgreSQL 的实时数仓服务,不仅提供了强大的在线分析处理(OLAP)功能,还内置了一系列高可用性和容灾机制。本文将详细介绍 Hologres 的高可用架构,并提供实现容灾备份的具体方案。
35 7
|
11天前
|
存储 SQL 分布式计算
Hologres 与阿里云生态的集成:构建高效的数据处理解决方案
【9月更文第1天】随着大数据时代的到来,数据处理和分析的需求日益增长。阿里云作为国内领先的云计算平台之一,提供了多种数据存储和处理的服务,其中Hologres作为一款实时数仓产品,以其高性能、高可用性以及对标准SQL的支持而受到广泛关注。本文将探讨Hologres如何与阿里云上的其他服务如MaxCompute、DataHub等进行集成,以构建一个完整的数据处理解决方案。
34 2
|
17天前
|
消息中间件 监控 关系型数据库
Serverless 应用的监控与调试问题之实时离线数仓一体化常用的解决方案有什么问题
Serverless 应用的监控与调试问题之实时离线数仓一体化常用的解决方案有什么问题
|
2月前
|
分布式计算 DataWorks Java
DataWorks产品使用合集之怎么选择Doris或StarRocks作为DataWorks的OLAP解决方案
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
存储 消息中间件 SQL
分钟级实时数据分析的背后——实时湖仓产品解决方案
袋鼠云在结合当前数据湖技术的基础上,建设实时湖仓平台,满足客户“快、精、准”的数据需求。本文将详细介绍实时湖仓产品解决方案,让企业能够更专注地去解决他们的业务价值。
134 0
|
运维 Cloud Native 安全
降本50%!阿里云发布AnalyticDB数仓升舱解决方案
降本50%!阿里云发布AnalyticDB数仓升舱解决方案
207 0
|
存储 关系型数据库 数据挖掘
直播预告 | 柏睿数据 × PolarDB 湖仓一体联合解决方案
作为阿里云PolarDB开源社区的生态伙伴,柏睿数据和PolarDB联手,根据产品的特殊点整合统一的解决方案,新方案融合数据湖和数据仓库成为一种新型的开放式数据平台架构,PolarDB做湖,RapidsDB做仓,将数据湖和数据仓库的优势充分结合,通过RapidsDB的federation能力构建在数据湖低成本的数据存储架构之上,又继承了数据仓库的数据处理、分析和管理功能。本次分享将详细介绍湖和仓的边界区分,业内的通用数据同步实现方案以及RapidsDB的技术特性。
直播预告 | 柏睿数据 × PolarDB 湖仓一体联合解决方案
|
存储 关系型数据库 数据管理
【最佳实践】高性价比的数据归档解决方案(DMS + AnalyticDB PostgreSQL)
发布全新数据归档方案,依托DMS + AnalyticDB PostgreSQL Serverless版本,帮助客户用低价格实现海量数据的持久化,还可以对归档数据进行完善管理、高效寻回、查看并进行分析
【最佳实践】高性价比的数据归档解决方案(DMS + AnalyticDB PostgreSQL)
|
存储 SQL 关系型数据库
柏睿数据+PolarDB湖仓一体联合解决方案
柏睿数据和PolarDB联手,根据产品的特殊点整合统一的解决方案,新方案融合数据湖和数据仓库成为一种新型的开放式数据平台架构,PolarDB做湖,RapidsDB做仓,将数据湖和数据仓库的优势充分结合,通过RapidsDB的federation能力构建在数据湖低成本的数据存储架构之上,又继承了数据仓库的数据处理、分析和管理功能。
柏睿数据+PolarDB湖仓一体联合解决方案

热门文章

最新文章