实时数仓宽表加工解决方案

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 实时数仓宽表加工解决方案

一.实时数据仓库与离线数据仓库

由于离线数据每天凌晨拉去线上生成数据库(凌晨请求较少,减少线上库压力),导致数据是T+1,而对于一些时效性要求较强的场景。比如需要看现在的用户数、GMV等等,离线方案就很难解决了。

实时数据仓库就是刚好为了满足时效性要求较高的场景下而生的,但是在做实时数据仓库中经常会遇到一些问题。离线由于表数据都同步到数据仓库中,可以进行随意关联,出一些业务想要的统计结果。但是实时数据,一般是接收线上发送的实时消息或者同步mysql的binlog消息,进行消费的。

这就会出现如果消息来自不同源头,需要对这些消息进行整合关联,不同消息的先后顺序无法保证?关联关系如果比较复杂,不像离线数仓通过sql进行关联,处理效果也会较差。

二.问题

下面是在实时数据仓库加工过程中,经常会遇到的一些问题:

1.需要关联维表信息(与离线数仓类似需要关联维表信息,但是实时数据中并没有维表信息)

2.接收多个消息,消息先后顺序无法保证(离线中数据都已经同步,不存在先后问题)

3.一条与信息相关的所有消息是否全部到达(离线可以看作是当天的快照,但实时没办法判断是否全部到达)

三、解决方案

针对上述问题、结合工作中的遇到的一些场景,做一些总结,探讨下实时宽表加工方案:

1.如何关联维表信息问题:比如说我们计算订单相关数据,需要查询部门或者收货地址的地区等等,需要关联部门相关的维表或者地址信息维表。

解决方案:将sku相关的部门信息(T+1)同步到redis、hbase中作为缓存,查询的时候可以先查询缓存中的数据,如果没有查询到再去查询线上接口,能够有效的减少线上接口的压力。

2.多个消息无法保证先后顺序问题:还拿订单场景为例,比如我们需要统计订单支付金额,涉及到下单消息、支付消息,正常情况(支付消息后来,但是没办法保证)

解决方案:将消息进行分别存储至hbase,(1)下单消息到了去查询支付消息表,找到了进行下发;没找到进行存储;(2)支付消息先到达,查询下单消息,查询到了下发;没查询到进行存储

3.如何判断一条与信息相关的消息是否全部到达问题:订单场景下,一个订单多个消息(下单消息A、支付消息B、取消消息C等等),怎么能保证一个订单下的所有消息都达到了呢?比如说:订单od1是不是支付了呢?是不是取消了呢?这些

解决方案:不管消息是否全部到达,进行存储至hbase,同时取出该订单相关的所有消息进行下发。

下发出来的数据:

(1)A

(2)A、B

(3)A、B、C

可以看到上述总共发了3次消息,其中A消息发了3次,B消息发了2次,C消息发了1次。可以解决无论哪个消息先到达,只需要根据业务进行判断是否符合条件,进行处理即可。在处理的过程中对每个消息进行幂等处理即可,保证消息不会重复计算。这样既能保证不用讨论消息的先后顺序,又可以保证处理所有的消息,使计算逻辑准确无误。

四、总结

实时数据仓库在保证时效性的同时,难免处理方案不像离线数据那样简单,但如果为了时效性,做一些处理也是在所难免的,毕竟大家更希望看到的是当前的用户量是多少,当前销售额是多少,而不是昨天的。

 


相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
相关文章
|
2月前
|
存储 数据可视化 数据挖掘
《基于 hologres 搭建轻量 OLAP 分析平台》解决方案的测评
《基于 hologres 搭建轻量 OLAP 分析平台》解决方案的测评
49 4
|
1月前
|
OLAP
解决方案|基于hologres搭建轻量OLAP分析平台获奖名单公布!
解决方案|基于hologres搭建轻量OLAP分析平台获奖名单公布!
|
2月前
|
安全 数据挖掘 关系型数据库
体验《基于hologres搭建轻量OLAP分析平台》解决方案并进行部署
《基于HoloGres搭建轻量OLAP分析平台》解决方案详尽介绍了HoloGres基础、OLAP原理及平台架构设计等内容。涵盖数据模型设计、加载流程、查询优化及安全性能考虑等多方面,适合有一定背景知识的读者深入理解和实践。然而,对于初学者而言,可能需要更多概念解释。方案在数据迁移、高级查询优化及安全配置等方面提供了指导,但仍需注意潜在的环境兼容性、配置错误及性能瓶颈等问题。通过参考官方文档和社区资源,用户可以解决常见问题并根据实际需求进行调整优化,以实现高效的数据分析。
|
1月前
|
DataWorks 数据挖掘 关系型数据库
基于hologres搭建轻量OLAP分析平台解决方案评测
一文带你详细了解基于hologres搭建轻量OLAP分析平台解决方案的优与劣
184 8
|
2月前
|
存储 数据可视化 数据挖掘
《基于 hologres 搭建轻量 OLAP 分析平台》解决方案的测评
《基于 hologres 搭建轻量 OLAP 分析平台》解决方案的测评
42 8
|
2月前
|
数据挖掘 关系型数据库 MySQL
《基于hologres搭建轻量OLAP分析平台》解决方案并进行部署评测
《基于hologres搭建轻量OLAP分析平台》解决方案并进行部署
|
2月前
|
存储 机器学习/深度学习 监控
阿里云 Hologres OLAP 解决方案评测
随着大数据时代的到来,企业面临着海量数据的挑战,如何高效地进行数据分析和决策变得尤为重要。阿里云推出的 Hologres OLAP(在线分析处理)解决方案,旨在为用户提供快速、高效的数据分析能力。本文将深入探讨 Hologres OLAP 的特点、优势以及应用场景,并针对方案的技术细节、部署指导、代码示例和数据分析需求进行评测。
127 7
|
2月前
|
监控 容灾 关系型数据库
Hologres 的高可用性与容灾解决方案
【9月更文第1天】随着企业对实时数据分析的需求不断增加,数据仓库不仅要具备高性能的查询能力,还需要具备高可用性和灾难恢复的能力。Hologres 作为一款基于 PostgreSQL 的实时数仓服务,不仅提供了强大的在线分析处理(OLAP)功能,还内置了一系列高可用性和容灾机制。本文将详细介绍 Hologres 的高可用架构,并提供实现容灾备份的具体方案。
82 7
|
2月前
|
存储 SQL 分布式计算
Hologres 与阿里云生态的集成:构建高效的数据处理解决方案
【9月更文第1天】随着大数据时代的到来,数据处理和分析的需求日益增长。阿里云作为国内领先的云计算平台之一,提供了多种数据存储和处理的服务,其中Hologres作为一款实时数仓产品,以其高性能、高可用性以及对标准SQL的支持而受到广泛关注。本文将探讨Hologres如何与阿里云上的其他服务如MaxCompute、DataHub等进行集成,以构建一个完整的数据处理解决方案。
85 2
|
3月前
|
消息中间件 监控 关系型数据库
Serverless 应用的监控与调试问题之实时离线数仓一体化常用的解决方案有什么问题
Serverless 应用的监控与调试问题之实时离线数仓一体化常用的解决方案有什么问题

热门文章

最新文章