分析型数据库+数据传输,构建企业级实时数仓

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 传统的离线数据仓库,将业务数据集中进行存储后,以固定的计算逻辑定时进行ETL 和其它建模后产出报表等应用。离线数据仓库一般采用每日或每几个小时进行一次计算的方式,计算和数据的实时性均较差,业务人员无法根据自己的即时性需要获取几分钟之前的实时数据。

什么是实时数仓

传统的离线数据仓库,将业务数据集中进行存储后,以固定的计算逻辑定时进行ETL 和其它建模后产出报表等应用。离线数据仓库一般采用每日或每几个小时进行一次计算的方式,计算和数据的实时性均较差,业务人员无法根据自己的即时性需要获取几分钟之前的实时数据。

而虽然软件技术和硬件的发展,实时数据仓库一类解决方案越发流行。实时数仓同时具有计算的实时性(计算在用户查询时发生,可自由变换,查询速度快),和数据的实时性(数据产生插入数仓后很短时间内既可以查询到),可以让业务人员在几秒钟甚至几百毫秒的时间内获取到包含最近几分钟内的数据计算结果,以最大的灵活度应对千变万化的业务挑战。

实时数据仓库解决方案还广泛的运用于物流行业的件量预测、O2O/电商行业的实时A-CRM系统、广告行业的M-DMP系统、国家政府机关如公安/交警的大数据系统,以及企业内部实时BI报表和可视化大屏等。

阿里云实时数据仓解决方案

阿里云作为服务阿里巴巴集团和蚂蚁金服集团多年的云计算和大数据基础设施供应商,提供了完备的实时数仓解决方案:包括实时数据同步工具 数据传输、实时分析型数据库AnalyticDB(ADS)、可视化大屏制作工具DataV、流式计算服务StreamCompute等。

阿里云分析型数据库(AnalyticDB, ADS),是阿里云自主研发的海量数据实时高并发在线分析(Realtime OLAP)云计算服务,使得用户可以在毫秒级针对千亿级数据进行即时的多维分析透视和业务探索。同时,分析型数据库支持超高性能的实时数据写入,在实际生产的项目中最高可以超过180万条/秒(每条平均300字节)的数据写入速率。

阿里云数据传输(Data Transmission,DTS ),支持以数据库为核心的结构化存储产品之间的数据传输。 它是一种集数据迁移、数据订阅及数据实时同步于一体的数据传输服务。

目前,DTS推出了阿里云RDS->分析型数据库实时同步功能,通过简单的配置,即可将用户在阿里云RDS/DRDS (当前仅限MySQL ,未来支持更多数据库类型) 中的数据实时同步到分析型数据库ADS 中,可在很短的延时内自动同步RDS /DRDS 上所有数据变更,支持跨region 同步并有良好的鲁棒性。

DTS 让阿里云RDS 用户都可以非常方便的享受到分析型数据库极速的计算能力,使得阿里云实时数据仓库解决方案如虎添翼,受到了广大用户的青睐。下面我们学习两个阿里云实时数据仓库的应用案例。

应用案例

网聚宝实时CRM

网聚宝(www.wangjubao.com )是电商领域顶尖的大数据服务商(ISV )。基于阿里云的全套解决方案,网聚宝有能力整合品牌商在各大电商平台的销售、会员、运营等数据,提供CRM 、全景洞察(实时分析中心)、可视化大屏等一站式大数据服务,服务杜蕾斯、奔驰等多个知名品牌商。

_
图:网聚宝的业务系统架构

网聚宝使用了经典的DRDS+DTS+ADS架构,使用DRDS 方便记录用户事务性操作和数据传输,使用ADS 进行在线的实时分析计算,在其中,DTS 无缝的将DRDS 中的数据同步到ADS 上,使得网聚宝可以不用关心数据写入和传输等相关的问题。同时,网聚宝实时数仓部分还使用了阿里云流计算StreamCompute、数据可视化大屏DataV 等产品,在短时间内快速的构建出实时CRM 体系。

利用分析型数据库ADS 强大的多表自由Join 和多维分析查询能力,网聚宝还开发了新产品“全景洞察”。用户可以自由的在全景洞察中定义分析维度、指标计算方法和过滤条件,计算完全实时化,能够在三四秒左右就完成计算,数据从写入到可查平均在两分钟内,帮助商家应对激烈的市场竞争。同时,应用DataV 网聚宝还推出了电商可视化大屏,帮助商家获得如阿里巴巴双十一媒体大屏一样酷炫的体验。

A6A5D421_D07D_48EC_AA43_1A4707C547CA
图:网聚宝的“全景洞察”产品页面

某大型快递公司实时数据中心

大家对“双十一”期间的血拼还历历在目,而双十二又到了。据统计,今年“双11”期间(11月11日至16日)全行业处理的邮件(快件)业务量将超过10.5亿件,比去年同期增长35%。而这几年大家却能明显的感觉到,大促的时候快递效率越来越高:在历经八年的“双十一”之后,快递货品已经由过去的“两周见”、“一周见”,变成了“当日达”、“次日达”。

多年的大促物流压力,使得国内的快递公司们都练就了一身黑科技。而云计算和大数据在这其中起到了至关重要的作用。在2016年,某大型快递企业基于阿里云云计算和大数据平台,构建了一整套”云物流”系统,从物流订单信息接入,到物流信息的实时反馈与在线查询,再到全国物流的实时监控可视化大屏、协议客户的数据分析系统等等,帮助商家、快递网点、指挥中心和消费者实时的了解物流信息的进展,高效的进行物流指挥调度。

42ECBCC3_DAF5_40B4_8BBE_8A646DD7BE46

图:该客户的数据系统架构

该公司的数据,主要通过两条途径进入分析型数据库:业务系统将数据写入阿里云分布式关系型数据库DRDS或关系型数据库RDS后,利用阿里云数据传输DTS产品,自动的将数据实时同步到分析型数据库ADS中;另外还有大量数据通过阿里云消息队列MQ进行交换后,由用户程序直接写入分析型数据库。在”双十一”当天,整套系统承载了超过一万条每秒的数据实时流量。良好的数据实时性,使得全国物流可视化监控大屏的构建成为了可能,同时利用阿里云数据可视化工具DataV,该公司在短时间内构建起了华丽的监控展示大屏。

ADS具备强大的在线计算能力,对于筛选率较高的交互式查询和APP系统类业务,可以提供较高的查询并发能力。该公司项目中,一个重要的业务系统”反馈中心”,为了让卖家买家能够及时收到有关的物流信息推送,在任何一个快递状态发生变化时,均需要查询历史数据进行计算后,讲计算结果推送给下游APP,这就产生了大量的查询并发,据统计,双十一当天反馈系统承载了超过每秒钟5000次的查询,阿里云整体平台运行十分稳定良好。

该公司项目中,”分析中心”模块是为其公司内部、协议客户等提供综合数据分析和报表展现的系统。由于物流行业的时效性要求,该模块亦无法接受传统离线数据仓库的”T+1”数据延迟,因此,ADS 利用最新发布的Full MPP Mode计算引擎,帮助该公司按照每小时为粒度进行数据的ETL和报表结果数据生成的计算工作。Full MPP Mode计算引擎对于该模块的复杂的数据清洗和转换SQL具有良好的兼容性,计算结果写入分析型数据库中的结果表后,又可以使用分析型数据库高速查询引擎进行高并发的在线查询和交互式计算分析,以满足“分析中心”模块被各个分公司、快递网点、协议客户使用时较高的查询并发要求。

更多产品信息

分析型数据库产品介绍:https://www.aliyun.com/product/ads
数据传输产品介绍:https://www.aliyun.com/product/dts

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
9天前
|
SQL NoSQL 关系型数据库
实时数仓Hologres发展问题之实时数仓的类数据库化与HTAP数据库的差异如何解决
实时数仓Hologres发展问题之实时数仓的类数据库化与HTAP数据库的差异如何解决
30 2
|
4天前
|
OLAP
云端问道5期-基于Hologres轻量高性能OLAP分析陪跑班获奖名单公布啦!
云端问道5期-基于Hologres轻量高性能OLAP分析陪跑班获奖名单公布啦!
353 2
|
10天前
|
SQL 消息中间件 OLAP
OneSQL OLAP实践问题之实时数仓中数据的分层如何解决
OneSQL OLAP实践问题之实时数仓中数据的分层如何解决
26 1
|
2月前
|
SQL 关系型数据库 MySQL
如何在Dataphin中构建Flink+Paimon流式湖仓方案
当前大数据处理工业界非常重要的一个大趋势是一体化,尤其是湖仓一体架构。与过去分散的数据仓库和数据湖不同,湖仓一体架构通过将数据存储和处理融为一体,不仅提升了数据访问速度和处理效率,还简化了数据管理流程,降低了资源成本。企业可以更轻松地实现数据治理和分析,从而快速决策。paimon是国内开源的,也是最年轻的成员。 本文主要演示如何在 Dataphin 产品中构建 Flink+Paimon 的流式湖仓方案。
7316 1
如何在Dataphin中构建Flink+Paimon流式湖仓方案
|
13天前
|
SQL 分布式计算 调度
实时数仓 Hologres操作报错合集之在与PostgreSOL数据库进行通信时出现报错,如何解决
实时数仓Hologres是阿里云推出的一款高性能、实时分析的数据库服务,专为大数据分析和复杂查询场景设计。使用Hologres,企业能够打破传统数据仓库的延迟瓶颈,实现数据到决策的无缝衔接,加速业务创新和响应速度。以下是Hologres产品的一些典型使用场景合集。
|
2月前
|
存储 SQL OLAP
分析性能提升40%,阿里云Hologres流量场景最佳实践
分析性能提升40%,阿里云Hologres流量场景最佳实践
|
18天前
|
消息中间件 存储 大数据
大数据-数据仓库-实时数仓架构分析
大数据-数据仓库-实时数仓架构分析
51 1
|
3月前
|
存储 SQL 消息中间件
Hologres+Flink企业级实时数仓核心能力介绍
通过Hologres+Flink构建易用、统一的企业级实时数仓。
|
11天前
|
存储 缓存 容器
实时数仓Hologres构建效率问题之瘦身如何解决
提升构建效率的原则首重准确性,在确保无误的基础上优化流程。应用瘦身通过精简依赖减轻构建负担。分层构建利用底层共享减少重复工作。构建缓存存储以往结果,避免重复工序,显著提速。这些策略共同作用,有效提高构建效率与质量。
22 0
|
11天前
|
容器
实时数仓Hologres构建环境问题之Dockerfile描述如何解决
在制品构建时明确依赖版本可避免因版本变动引起的构建差异,确保一致性与可预测性。通过Dockerfile指定确切版本的依赖与环境,能够跨平台重现相同的构建环境。为保证构建脚本一致性,应采用与业务代码解耦的构建脚本,并严格控制环境变量。构建准确性和速度都很重要,但通常准确性优先,确保制品质量稳定可靠。
22 0

热门文章

最新文章

相关产品

  • 云原生数据仓库AnalyticDB MySQL版
  • 下一篇
    云函数