分析型数据库+数据传输,构建企业级实时数仓

简介: 传统的离线数据仓库,将业务数据集中进行存储后,以固定的计算逻辑定时进行ETL 和其它建模后产出报表等应用。离线数据仓库一般采用每日或每几个小时进行一次计算的方式,计算和数据的实时性均较差,业务人员无法根据自己的即时性需要获取几分钟之前的实时数据。

什么是实时数仓

传统的离线数据仓库,将业务数据集中进行存储后,以固定的计算逻辑定时进行ETL 和其它建模后产出报表等应用。离线数据仓库一般采用每日或每几个小时进行一次计算的方式,计算和数据的实时性均较差,业务人员无法根据自己的即时性需要获取几分钟之前的实时数据。

而虽然软件技术和硬件的发展,实时数据仓库一类解决方案越发流行。实时数仓同时具有计算的实时性(计算在用户查询时发生,可自由变换,查询速度快),和数据的实时性(数据产生插入数仓后很短时间内既可以查询到),可以让业务人员在几秒钟甚至几百毫秒的时间内获取到包含最近几分钟内的数据计算结果,以最大的灵活度应对千变万化的业务挑战。

实时数据仓库解决方案还广泛的运用于物流行业的件量预测、O2O/电商行业的实时A-CRM系统、广告行业的M-DMP系统、国家政府机关如公安/交警的大数据系统,以及企业内部实时BI报表和可视化大屏等。

阿里云实时数据仓解决方案

阿里云作为服务阿里巴巴集团和蚂蚁金服集团多年的云计算和大数据基础设施供应商,提供了完备的实时数仓解决方案:包括实时数据同步工具 数据传输、实时分析型数据库AnalyticDB(ADS)、可视化大屏制作工具DataV、流式计算服务StreamCompute等。

阿里云分析型数据库(AnalyticDB, ADS),是阿里云自主研发的海量数据实时高并发在线分析(Realtime OLAP)云计算服务,使得用户可以在毫秒级针对千亿级数据进行即时的多维分析透视和业务探索。同时,分析型数据库支持超高性能的实时数据写入,在实际生产的项目中最高可以超过180万条/秒(每条平均300字节)的数据写入速率。

阿里云数据传输(Data Transmission,DTS ),支持以数据库为核心的结构化存储产品之间的数据传输。 它是一种集数据迁移、数据订阅及数据实时同步于一体的数据传输服务。

目前,DTS推出了阿里云RDS->分析型数据库实时同步功能,通过简单的配置,即可将用户在阿里云RDS/DRDS (当前仅限MySQL ,未来支持更多数据库类型) 中的数据实时同步到分析型数据库ADS 中,可在很短的延时内自动同步RDS /DRDS 上所有数据变更,支持跨region 同步并有良好的鲁棒性。

DTS 让阿里云RDS 用户都可以非常方便的享受到分析型数据库极速的计算能力,使得阿里云实时数据仓库解决方案如虎添翼,受到了广大用户的青睐。下面我们学习两个阿里云实时数据仓库的应用案例。

应用案例

网聚宝实时CRM

网聚宝(www.wangjubao.com )是电商领域顶尖的大数据服务商(ISV )。基于阿里云的全套解决方案,网聚宝有能力整合品牌商在各大电商平台的销售、会员、运营等数据,提供CRM 、全景洞察(实时分析中心)、可视化大屏等一站式大数据服务,服务杜蕾斯、奔驰等多个知名品牌商。

_
图:网聚宝的业务系统架构

网聚宝使用了经典的DRDS+DTS+ADS架构,使用DRDS 方便记录用户事务性操作和数据传输,使用ADS 进行在线的实时分析计算,在其中,DTS 无缝的将DRDS 中的数据同步到ADS 上,使得网聚宝可以不用关心数据写入和传输等相关的问题。同时,网聚宝实时数仓部分还使用了阿里云流计算StreamCompute、数据可视化大屏DataV 等产品,在短时间内快速的构建出实时CRM 体系。

利用分析型数据库ADS 强大的多表自由Join 和多维分析查询能力,网聚宝还开发了新产品“全景洞察”。用户可以自由的在全景洞察中定义分析维度、指标计算方法和过滤条件,计算完全实时化,能够在三四秒左右就完成计算,数据从写入到可查平均在两分钟内,帮助商家应对激烈的市场竞争。同时,应用DataV 网聚宝还推出了电商可视化大屏,帮助商家获得如阿里巴巴双十一媒体大屏一样酷炫的体验。

A6A5D421_D07D_48EC_AA43_1A4707C547CA
图:网聚宝的“全景洞察”产品页面

某大型快递公司实时数据中心

大家对“双十一”期间的血拼还历历在目,而双十二又到了。据统计,今年“双11”期间(11月11日至16日)全行业处理的邮件(快件)业务量将超过10.5亿件,比去年同期增长35%。而这几年大家却能明显的感觉到,大促的时候快递效率越来越高:在历经八年的“双十一”之后,快递货品已经由过去的“两周见”、“一周见”,变成了“当日达”、“次日达”。

多年的大促物流压力,使得国内的快递公司们都练就了一身黑科技。而云计算和大数据在这其中起到了至关重要的作用。在2016年,某大型快递企业基于阿里云云计算和大数据平台,构建了一整套”云物流”系统,从物流订单信息接入,到物流信息的实时反馈与在线查询,再到全国物流的实时监控可视化大屏、协议客户的数据分析系统等等,帮助商家、快递网点、指挥中心和消费者实时的了解物流信息的进展,高效的进行物流指挥调度。

42ECBCC3_DAF5_40B4_8BBE_8A646DD7BE46

图:该客户的数据系统架构

该公司的数据,主要通过两条途径进入分析型数据库:业务系统将数据写入阿里云分布式关系型数据库DRDS或关系型数据库RDS后,利用阿里云数据传输DTS产品,自动的将数据实时同步到分析型数据库ADS中;另外还有大量数据通过阿里云消息队列MQ进行交换后,由用户程序直接写入分析型数据库。在”双十一”当天,整套系统承载了超过一万条每秒的数据实时流量。良好的数据实时性,使得全国物流可视化监控大屏的构建成为了可能,同时利用阿里云数据可视化工具DataV,该公司在短时间内构建起了华丽的监控展示大屏。

ADS具备强大的在线计算能力,对于筛选率较高的交互式查询和APP系统类业务,可以提供较高的查询并发能力。该公司项目中,一个重要的业务系统”反馈中心”,为了让卖家买家能够及时收到有关的物流信息推送,在任何一个快递状态发生变化时,均需要查询历史数据进行计算后,讲计算结果推送给下游APP,这就产生了大量的查询并发,据统计,双十一当天反馈系统承载了超过每秒钟5000次的查询,阿里云整体平台运行十分稳定良好。

该公司项目中,”分析中心”模块是为其公司内部、协议客户等提供综合数据分析和报表展现的系统。由于物流行业的时效性要求,该模块亦无法接受传统离线数据仓库的”T+1”数据延迟,因此,ADS 利用最新发布的Full MPP Mode计算引擎,帮助该公司按照每小时为粒度进行数据的ETL和报表结果数据生成的计算工作。Full MPP Mode计算引擎对于该模块的复杂的数据清洗和转换SQL具有良好的兼容性,计算结果写入分析型数据库中的结果表后,又可以使用分析型数据库高速查询引擎进行高并发的在线查询和交互式计算分析,以满足“分析中心”模块被各个分公司、快递网点、协议客户使用时较高的查询并发要求。

更多产品信息

分析型数据库产品介绍:https://www.aliyun.com/product/ads
数据传输产品介绍:https://www.aliyun.com/product/dts

相关实践学习
数据库实验室挑战任务-初级任务
本场景介绍如何开通属于你的免费云数据库,在RDS-MySQL中完成对学生成绩的详情查询,执行指定类型SQL。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
1月前
|
存储 数据处理 数据库
构建高性能的数据库查询引擎
本文将介绍如何构建一个高性能的数据库查询引擎,以提升数据库查询的效率和响应速度。通过优化查询计划、索引设计和数据存储等方面,可以实现更快速和可扩展的数据库查询,为应用程序提供更好的用户体验和数据处理能力。
|
1月前
|
存储 SQL 分布式计算
TiDB整体架构概览:构建高效分布式数据库的关键设计
【2月更文挑战第26天】本文旨在全面概述TiDB的整体架构,深入剖析其关键组件和功能,从而帮助读者理解TiDB如何构建高效、稳定的分布式数据库。我们将探讨TiDB的计算层、存储层以及其他核心组件,并解释这些组件是如何协同工作以实现卓越的性能和扩展性的。通过本文,读者将能够深入了解TiDB的整体架构,为后续的学习和实践奠定坚实基础。
|
1月前
|
人工智能 自然语言处理 NoSQL
悦数图数据库推出 AI 知识图谱构建器及图语言生成助手
随着人工智能应用在全球范围的普及和风靡,大语言模型技术(Large Language Model,简称 LLM)受到了广泛的关注和应用。而图数据库作为一种处理复杂数据结构的工具,能够为企业构建行业大语言模型提供强大的支持,包括丰富亿万级别的上下文信息,提升模型的应答精度,从而实现企业级的应用效果。同时,Graph+LLM 可以助力快速构建知识图谱,帮助企业更深入地理解和挖掘数据价值。
|
1月前
|
数据处理 数据库
在Hologres的HoloWeb控制台中,您可以查看并分析历史查询语句
【2月更文挑战第20天】在Hologres的HoloWeb控制台中,您可以查看并分析历史查询语句
17 1
|
1月前
|
存储 数据处理 Apache
万字长文 | 泰康人寿基于 Apache Hudi 构建湖仓一体平台的应用实践
万字长文 | 泰康人寿基于 Apache Hudi 构建湖仓一体平台的应用实践
69 0
|
2月前
|
缓存 监控 关系型数据库
构建高效的数据库应用:Python 实践
在当今数据驱动的世界中,构建高效的数据库应用程序对于企业和个人来说至关重要。Python 作为一种强大的编程语言,提供了丰富的数据库工具和库,使得开发人员能够轻松地构建高效、可靠的数据库应用程序。在本文中,我们将探讨一些关键的技术和最佳实践,以帮助你构建高效的数据库应用程序。
|
3月前
|
缓存 数据库 开发者
构建高性能的数据库查询语句优化策略
数据库查询是开发过程中常见的性能瓶颈之一。本文将介绍构建高性能数据库查询语句的优化策略,包括索引的设计与使用、查询语句的编写技巧、连接的优化等方面,帮助开发者提升数据库查询的效率和响应速度。
|
3月前
|
存储 人工智能 运维
轻喜到家基于 EMR-StarRocks 构建实时湖仓分析平台实践
本文从轻喜到家的历史技术架构与痛点问题、架构升级需求与 OLAP 选型过程、最新技术架构及落地场景应用等方面,详细介绍了轻喜到家基于 EMR-StarRocks 构建实时湖仓分析平台实践经验。
882 0
轻喜到家基于 EMR-StarRocks 构建实时湖仓分析平台实践
|
3月前
|
SQL 存储 Apache
Paimon 实践 | 基于 Flink SQL 和 Paimon 构建流式湖仓新方案
Paimon 实践 | 基于 Flink SQL 和 Paimon 构建流式湖仓新方案
381 1
|
3月前
|
存储 SQL 分布式数据库
OceanBase X Flink 基于原生分布式数据库构建实时计算解决方案
OceanBase X Flink 基于原生分布式数据库构建实时计算解决方案

相关产品

  • 云原生数据仓库AnalyticDB MySQL版