什么是实时数仓
传统的离线数据仓库,将业务数据集中进行存储后,以固定的计算逻辑定时进行ETL 和其它建模后产出报表等应用。离线数据仓库一般采用每日或每几个小时进行一次计算的方式,计算和数据的实时性均较差,业务人员无法根据自己的即时性需要获取几分钟之前的实时数据。
而虽然软件技术和硬件的发展,实时数据仓库一类解决方案越发流行。实时数仓同时具有计算的实时性(计算在用户查询时发生,可自由变换,查询速度快),和数据的实时性(数据产生插入数仓后很短时间内既可以查询到),可以让业务人员在几秒钟甚至几百毫秒的时间内获取到包含最近几分钟内的数据计算结果,以最大的灵活度应对千变万化的业务挑战。
实时数据仓库解决方案还广泛的运用于物流行业的件量预测、O2O/电商行业的实时A-CRM系统、广告行业的M-DMP系统、国家政府机关如公安/交警的大数据系统,以及企业内部实时BI报表和可视化大屏等。
阿里云实时数据仓解决方案
阿里云作为服务阿里巴巴集团和蚂蚁金服集团多年的云计算和大数据基础设施供应商,提供了完备的实时数仓解决方案:包括实时数据同步工具 数据传输、实时分析型数据库AnalyticDB(ADS)、可视化大屏制作工具DataV、流式计算服务StreamCompute等。
阿里云分析型数据库(AnalyticDB, ADS),是阿里云自主研发的海量数据实时高并发在线分析(Realtime OLAP)云计算服务,使得用户可以在毫秒级针对千亿级数据进行即时的多维分析透视和业务探索。同时,分析型数据库支持超高性能的实时数据写入,在实际生产的项目中最高可以超过180万条/秒(每条平均300字节)的数据写入速率。
阿里云数据传输(Data Transmission,DTS ),支持以数据库为核心的结构化存储产品之间的数据传输。 它是一种集数据迁移、数据订阅及数据实时同步于一体的数据传输服务。
目前,DTS推出了阿里云RDS->分析型数据库实时同步功能,通过简单的配置,即可将用户在阿里云RDS/DRDS (当前仅限MySQL ,未来支持更多数据库类型) 中的数据实时同步到分析型数据库ADS 中,可在很短的延时内自动同步RDS /DRDS 上所有数据变更,支持跨region 同步并有良好的鲁棒性。
DTS 让阿里云RDS 用户都可以非常方便的享受到分析型数据库极速的计算能力,使得阿里云实时数据仓库解决方案如虎添翼,受到了广大用户的青睐。下面我们学习两个阿里云实时数据仓库的应用案例。
应用案例
网聚宝实时CRM
网聚宝(www.wangjubao.com )是电商领域顶尖的大数据服务商(ISV )。基于阿里云的全套解决方案,网聚宝有能力整合品牌商在各大电商平台的销售、会员、运营等数据,提供CRM 、全景洞察(实时分析中心)、可视化大屏等一站式大数据服务,服务杜蕾斯、奔驰等多个知名品牌商。
图:网聚宝的业务系统架构
网聚宝使用了经典的DRDS+DTS+ADS架构,使用DRDS 方便记录用户事务性操作和数据传输,使用ADS 进行在线的实时分析计算,在其中,DTS 无缝的将DRDS 中的数据同步到ADS 上,使得网聚宝可以不用关心数据写入和传输等相关的问题。同时,网聚宝实时数仓部分还使用了阿里云流计算StreamCompute、数据可视化大屏DataV 等产品,在短时间内快速的构建出实时CRM 体系。
利用分析型数据库ADS 强大的多表自由Join 和多维分析查询能力,网聚宝还开发了新产品“全景洞察”。用户可以自由的在全景洞察中定义分析维度、指标计算方法和过滤条件,计算完全实时化,能够在三四秒左右就完成计算,数据从写入到可查平均在两分钟内,帮助商家应对激烈的市场竞争。同时,应用DataV 网聚宝还推出了电商可视化大屏,帮助商家获得如阿里巴巴双十一媒体大屏一样酷炫的体验。
图:网聚宝的“全景洞察”产品页面
某大型快递公司实时数据中心
大家对“双十一”期间的血拼还历历在目,而双十二又到了。据统计,今年“双11”期间(11月11日至16日)全行业处理的邮件(快件)业务量将超过10.5亿件,比去年同期增长35%。而这几年大家却能明显的感觉到,大促的时候快递效率越来越高:在历经八年的“双十一”之后,快递货品已经由过去的“两周见”、“一周见”,变成了“当日达”、“次日达”。
多年的大促物流压力,使得国内的快递公司们都练就了一身黑科技。而云计算和大数据在这其中起到了至关重要的作用。在2016年,某大型快递企业基于阿里云云计算和大数据平台,构建了一整套”云物流”系统,从物流订单信息接入,到物流信息的实时反馈与在线查询,再到全国物流的实时监控可视化大屏、协议客户的数据分析系统等等,帮助商家、快递网点、指挥中心和消费者实时的了解物流信息的进展,高效的进行物流指挥调度。
图:该客户的数据系统架构
该公司的数据,主要通过两条途径进入分析型数据库:业务系统将数据写入阿里云分布式关系型数据库DRDS或关系型数据库RDS后,利用阿里云数据传输DTS产品,自动的将数据实时同步到分析型数据库ADS中;另外还有大量数据通过阿里云消息队列MQ进行交换后,由用户程序直接写入分析型数据库。在”双十一”当天,整套系统承载了超过一万条每秒的数据实时流量。良好的数据实时性,使得全国物流可视化监控大屏的构建成为了可能,同时利用阿里云数据可视化工具DataV,该公司在短时间内构建起了华丽的监控展示大屏。
ADS具备强大的在线计算能力,对于筛选率较高的交互式查询和APP系统类业务,可以提供较高的查询并发能力。该公司项目中,一个重要的业务系统”反馈中心”,为了让卖家买家能够及时收到有关的物流信息推送,在任何一个快递状态发生变化时,均需要查询历史数据进行计算后,讲计算结果推送给下游APP,这就产生了大量的查询并发,据统计,双十一当天反馈系统承载了超过每秒钟5000次的查询,阿里云整体平台运行十分稳定良好。
该公司项目中,”分析中心”模块是为其公司内部、协议客户等提供综合数据分析和报表展现的系统。由于物流行业的时效性要求,该模块亦无法接受传统离线数据仓库的”T+1”数据延迟,因此,ADS 利用最新发布的Full MPP Mode计算引擎,帮助该公司按照每小时为粒度进行数据的ETL和报表结果数据生成的计算工作。Full MPP Mode计算引擎对于该模块的复杂的数据清洗和转换SQL具有良好的兼容性,计算结果写入分析型数据库中的结果表后,又可以使用分析型数据库高速查询引擎进行高并发的在线查询和交互式计算分析,以满足“分析中心”模块被各个分公司、快递网点、协议客户使用时较高的查询并发要求。
更多产品信息
分析型数据库产品介绍:https://www.aliyun.com/product/ads
数据传输产品介绍:https://www.aliyun.com/product/dts