分析型数据库+数据传输,构建企业级实时数仓

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 传统的离线数据仓库,将业务数据集中进行存储后,以固定的计算逻辑定时进行ETL 和其它建模后产出报表等应用。离线数据仓库一般采用每日或每几个小时进行一次计算的方式,计算和数据的实时性均较差,业务人员无法根据自己的即时性需要获取几分钟之前的实时数据。

什么是实时数仓

传统的离线数据仓库,将业务数据集中进行存储后,以固定的计算逻辑定时进行ETL 和其它建模后产出报表等应用。离线数据仓库一般采用每日或每几个小时进行一次计算的方式,计算和数据的实时性均较差,业务人员无法根据自己的即时性需要获取几分钟之前的实时数据。

而虽然软件技术和硬件的发展,实时数据仓库一类解决方案越发流行。实时数仓同时具有计算的实时性(计算在用户查询时发生,可自由变换,查询速度快),和数据的实时性(数据产生插入数仓后很短时间内既可以查询到),可以让业务人员在几秒钟甚至几百毫秒的时间内获取到包含最近几分钟内的数据计算结果,以最大的灵活度应对千变万化的业务挑战。

实时数据仓库解决方案还广泛的运用于物流行业的件量预测、O2O/电商行业的实时A-CRM系统、广告行业的M-DMP系统、国家政府机关如公安/交警的大数据系统,以及企业内部实时BI报表和可视化大屏等。

阿里云实时数据仓解决方案

阿里云作为服务阿里巴巴集团和蚂蚁金服集团多年的云计算和大数据基础设施供应商,提供了完备的实时数仓解决方案:包括实时数据同步工具 数据传输、实时分析型数据库AnalyticDB(ADS)、可视化大屏制作工具DataV、流式计算服务StreamCompute等。

阿里云分析型数据库(AnalyticDB, ADS),是阿里云自主研发的海量数据实时高并发在线分析(Realtime OLAP)云计算服务,使得用户可以在毫秒级针对千亿级数据进行即时的多维分析透视和业务探索。同时,分析型数据库支持超高性能的实时数据写入,在实际生产的项目中最高可以超过180万条/秒(每条平均300字节)的数据写入速率。

阿里云数据传输(Data Transmission,DTS ),支持以数据库为核心的结构化存储产品之间的数据传输。 它是一种集数据迁移、数据订阅及数据实时同步于一体的数据传输服务。

目前,DTS推出了阿里云RDS->分析型数据库实时同步功能,通过简单的配置,即可将用户在阿里云RDS/DRDS (当前仅限MySQL ,未来支持更多数据库类型) 中的数据实时同步到分析型数据库ADS 中,可在很短的延时内自动同步RDS /DRDS 上所有数据变更,支持跨region 同步并有良好的鲁棒性。

DTS 让阿里云RDS 用户都可以非常方便的享受到分析型数据库极速的计算能力,使得阿里云实时数据仓库解决方案如虎添翼,受到了广大用户的青睐。下面我们学习两个阿里云实时数据仓库的应用案例。

应用案例

网聚宝实时CRM

网聚宝(www.wangjubao.com )是电商领域顶尖的大数据服务商(ISV )。基于阿里云的全套解决方案,网聚宝有能力整合品牌商在各大电商平台的销售、会员、运营等数据,提供CRM 、全景洞察(实时分析中心)、可视化大屏等一站式大数据服务,服务杜蕾斯、奔驰等多个知名品牌商。

_
图:网聚宝的业务系统架构

网聚宝使用了经典的DRDS+DTS+ADS架构,使用DRDS 方便记录用户事务性操作和数据传输,使用ADS 进行在线的实时分析计算,在其中,DTS 无缝的将DRDS 中的数据同步到ADS 上,使得网聚宝可以不用关心数据写入和传输等相关的问题。同时,网聚宝实时数仓部分还使用了阿里云流计算StreamCompute、数据可视化大屏DataV 等产品,在短时间内快速的构建出实时CRM 体系。

利用分析型数据库ADS 强大的多表自由Join 和多维分析查询能力,网聚宝还开发了新产品“全景洞察”。用户可以自由的在全景洞察中定义分析维度、指标计算方法和过滤条件,计算完全实时化,能够在三四秒左右就完成计算,数据从写入到可查平均在两分钟内,帮助商家应对激烈的市场竞争。同时,应用DataV 网聚宝还推出了电商可视化大屏,帮助商家获得如阿里巴巴双十一媒体大屏一样酷炫的体验。

A6A5D421_D07D_48EC_AA43_1A4707C547CA
图:网聚宝的“全景洞察”产品页面

某大型快递公司实时数据中心

大家对“双十一”期间的血拼还历历在目,而双十二又到了。据统计,今年“双11”期间(11月11日至16日)全行业处理的邮件(快件)业务量将超过10.5亿件,比去年同期增长35%。而这几年大家却能明显的感觉到,大促的时候快递效率越来越高:在历经八年的“双十一”之后,快递货品已经由过去的“两周见”、“一周见”,变成了“当日达”、“次日达”。

多年的大促物流压力,使得国内的快递公司们都练就了一身黑科技。而云计算和大数据在这其中起到了至关重要的作用。在2016年,某大型快递企业基于阿里云云计算和大数据平台,构建了一整套”云物流”系统,从物流订单信息接入,到物流信息的实时反馈与在线查询,再到全国物流的实时监控可视化大屏、协议客户的数据分析系统等等,帮助商家、快递网点、指挥中心和消费者实时的了解物流信息的进展,高效的进行物流指挥调度。

42ECBCC3_DAF5_40B4_8BBE_8A646DD7BE46

图:该客户的数据系统架构

该公司的数据,主要通过两条途径进入分析型数据库:业务系统将数据写入阿里云分布式关系型数据库DRDS或关系型数据库RDS后,利用阿里云数据传输DTS产品,自动的将数据实时同步到分析型数据库ADS中;另外还有大量数据通过阿里云消息队列MQ进行交换后,由用户程序直接写入分析型数据库。在”双十一”当天,整套系统承载了超过一万条每秒的数据实时流量。良好的数据实时性,使得全国物流可视化监控大屏的构建成为了可能,同时利用阿里云数据可视化工具DataV,该公司在短时间内构建起了华丽的监控展示大屏。

ADS具备强大的在线计算能力,对于筛选率较高的交互式查询和APP系统类业务,可以提供较高的查询并发能力。该公司项目中,一个重要的业务系统”反馈中心”,为了让卖家买家能够及时收到有关的物流信息推送,在任何一个快递状态发生变化时,均需要查询历史数据进行计算后,讲计算结果推送给下游APP,这就产生了大量的查询并发,据统计,双十一当天反馈系统承载了超过每秒钟5000次的查询,阿里云整体平台运行十分稳定良好。

该公司项目中,”分析中心”模块是为其公司内部、协议客户等提供综合数据分析和报表展现的系统。由于物流行业的时效性要求,该模块亦无法接受传统离线数据仓库的”T+1”数据延迟,因此,ADS 利用最新发布的Full MPP Mode计算引擎,帮助该公司按照每小时为粒度进行数据的ETL和报表结果数据生成的计算工作。Full MPP Mode计算引擎对于该模块的复杂的数据清洗和转换SQL具有良好的兼容性,计算结果写入分析型数据库中的结果表后,又可以使用分析型数据库高速查询引擎进行高并发的在线查询和交互式计算分析,以满足“分析中心”模块被各个分公司、快递网点、协议客户使用时较高的查询并发要求。

更多产品信息

分析型数据库产品介绍:https://www.aliyun.com/product/ads
数据传输产品介绍:https://www.aliyun.com/product/dts

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
2天前
|
人工智能 关系型数据库 OLAP
光云科技 X AnalyticDB:构建 AI 时代下的云原生企业级数仓
AnalyticDB承载了光云海量数据的实时在线分析,为各个业务线的商家提供了丝滑的数据服务,实时物化视图、租户资源隔离、冷热分离等企业级特性,很好的解决了SaaS场景下的业务痛点,也平衡了成本。同时也基于通义+AnalyticDB研发了企业级智能客服、智能导购等行业解决方案,借助大模型和云计算为商家赋能。
42 17
|
1月前
|
SQL 关系型数据库 网络安全
Navicat Premium 17 最新版下载与配置:5分钟完成企业级数据库工具部署
Navicat Premium 17 是一款支持多种主流数据库(如 MySQL、Oracle、PostgreSQL 等)的多数据库管理工具,提供可视化数据建模、SQL 编辑和数据同步等功能。试用版提供 14 天全功能体验,商业版支持跨平台使用。安装环境要求 Windows 10/11 或 macOS 12.0+,最低配置为 4GB 内存。下载并解压安装包后,按步骤启动安装程序、接受许可协议、自定义安装路径并完成安装。首次运行时需激活许可证并配置数据库连接。常见问题包括无法写入注册表、试用期续费及连接数据库权限问题。高级功能涵盖 SSH 通道加速、自动化任务调度和性能调优建议。
258 19
|
2月前
|
SQL 存储 HIVE
鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目
本文整理自鹰角网络大数据开发工程师朱正军在Flink Forward Asia 2024上的分享,主要涵盖四个方面:鹰角数据平台架构、数据湖选型、湖仓一体建设及未来展望。文章详细介绍了鹰角如何构建基于Paimon的数据湖,解决了Hudi入湖的痛点,并通过Trino引擎和Ranger权限管理实现高效的数据查询与管控。此外,还探讨了湖仓一体平台的落地效果及未来技术发展方向,包括Trino与Paimon的集成增强、StarRocks的应用以及Paimon全面替换Hive的计划。
278 1
鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目
|
3月前
|
存储 人工智能 分布式计算
湖仓实时化升级 :Uniflow 构建流批一体实时湖仓
本文整理自阿里云产品经理李昊哲在Flink Forward Asia 2024流批一体专场的分享,涵盖实时湖仓发展趋势、基于Flink搭建流批一体实时湖仓及Materialized Table优化三方面。首先探讨了实时湖仓的发展趋势和背景,特别是阿里云在该领域的领导地位。接着介绍了Uniflow解决方案,通过Flink CDC、Paimon存储等技术实现低成本、高性能的流批一体处理。最后,重点讲解了Materialized Table如何简化用户操作,提升数据查询和补数体验,助力企业高效应对不同业务需求。
523 18
湖仓实时化升级 :Uniflow 构建流批一体实时湖仓
|
3月前
|
SQL 监控 关系型数据库
用友畅捷通在Flink上构建实时数仓、挑战与最佳实践
本文整理自用友畅捷通数据架构师王龙强在FFA2024上的分享,介绍了公司在Flink上构建实时数仓的经验。内容涵盖业务背景、数仓建设、当前挑战、最佳实践和未来展望。随着数据量增长,公司面临数据库性能瓶颈及实时数据处理需求,通过引入Flink技术逐步解决了数据同步、链路稳定性和表结构差异等问题,并计划在未来进一步优化链路稳定性、探索湖仓一体架构以及结合AI技术推进数据资源高效利用。
503 25
用友畅捷通在Flink上构建实时数仓、挑战与最佳实践
|
1月前
|
SQL 存储 HIVE
鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目
鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目
127 2
|
1月前
|
存储 分布式计算 数据处理
湖仓实时化升级 :Uniflow 构建流批一体实时湖仓
湖仓实时化升级 :Uniflow 构建流批一体实时湖仓
|
2月前
|
监控 关系型数据库 MySQL
云数据库:从零到一,构建高可用MySQL集群
在互联网时代,数据成为企业核心资产,传统单机数据库难以满足高并发、高可用需求。云数据库通过弹性扩展、分布式架构等优势解决了这些问题,但也面临数据安全和性能优化挑战。本文介绍了如何从零开始构建高可用MySQL集群,涵盖选择云服务提供商、创建实例、配置高可用架构、数据备份恢复及性能优化等内容,并通过电商平台案例展示了具体应用。
|
2月前
|
存储 分布式计算 物联网
美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台
美的楼宇科技基于阿里云 EMR Serverless Spark 建设 IoT 数据平台,实现了数据与 AI 技术的有效融合,解决了美的楼宇科技设备数据量庞大且持续增长、数据半结构化、数据价值缺乏深度挖掘的痛点问题。并结合 EMR Serverless StarRocks 搭建了 Lakehouse 平台,最终实现不同场景下整体性能提升50%以上,同时综合成本下降30%。
|
30天前
|
关系型数据库 MySQL Java
【YashanDB知识库】原生mysql驱动配置连接崖山数据库
【YashanDB知识库】原生mysql驱动配置连接崖山数据库
【YashanDB知识库】原生mysql驱动配置连接崖山数据库

相关产品

  • 云原生数据仓库AnalyticDB MySQL版