双11特刊|一站式在线数据管理平台DMS技术再升级,高效护航双11

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 Tair(兼容Redis),内存型 2GB
简介: 10万+企业共同选择的数据库服务平台


阿里云数据库已连续多年稳定支撑天猫双11,历经极端流量场景淬炼。除了保障稳定顺滑的基本盘,今年大促期间数据库通过全面云原生化,大幅提升用户体验,让技术帮助业务产生更有价值的消费者体验,持续通过技术创新赋能用户,引领技术发展路径。


双11已圆满落幕,但技术的探索,仍未止步。

“阿里云数据库” 公众号特此推出《好科技的新起点——2021双11阿里云数据库技术揭秘》系列干货文章,为你讲述年度“技术大考”背后的故事,敬请关注!


前言


阿里云一站式在线数据管理平台DMS,从最早的服务于集团内部业务的各个工具型产品,经历了阿里集团数据库各个时期的技术及架构演进、历年双十一的大促考验、云原生转型,演进到今天以统一的云架构,向阿里集团内部以及外部云客户提供一站式的数据管理服务,产品不断的拓展边界,提升技术深度,将阿里集团超大规模数据的管理方法,推向和服务于所有开发者。


image.png


关键组件


数据管理DMS: 作为数据库团队2009年上线给研发同学使用的一站式数据库开发平台,为集团、蚂蚁以及公有云客户提供数据库实时访问、数据库研发规范落地、数据安全管理以及安全生产等能力。同时结合数据库备份DBS能力为用户提供一站式公共云,混合云,线下自建数据库备份,除了稳定的备份恢复外,在2019年发布了云原生CDM(Cloud Data Management)能力,实现备份数据秒级恢复,支撑了金融、教育、游戏等广泛的客户业务场景。


数据备份DBS:是数据库团队2017年发布的数据库备份产品,为用户提供一站式公共云,混合云,线下自建数据库稳定的备份服务,同时在2019年release了阿里云第一款云原生CDM产品,利用云的特性帮助客户数据秒级恢复,秒级恢复产品已经支撑了教育,游戏,等重要客户场景。


数据传输DTS:(Data Transmission Service,简称DTS),从2011开始支撑阿里集团容灾到异地多活到阿里云官网上云,于2015年4月命名为DTS完成产品化,是全球第一个公有云数据传输产品,融合了阿里集团的性能和业务特点与公有云的数据源多样性。集数据迁移、订阅及实时同步功能于一体,能够解决公共云、混合云场景下,远距离、秒级异步数据传输难题。其底层基础设施采用阿里双11异地多活架构,为数千下游应用提供实时数据流,已在线上稳定运行6年之久。DTS支持关系型数据库、NoSQL、大数据(OLAP)等数据源,在传统商业数据库迁移尤其是Oracle、DB2 大机&小机系列等商业数据库具备兼容评估转换和实时同步能力。


DMS 总述


DMS :  结合数据管理、数据备份、数据传输的技术沉淀,统一打造为全新DMS产品,为用户提供一站式的全域数据资产管理、数据库设计开发、数据集成与开发的全链路能力,在2021双十一期间,为集团用户提供全方位的数据资产管理服务。


image.png


业务挑战


  1. 部分业务由于历史数据堆积,使得存储水位过高、表越来越大RT上升,面对这类问题DMS提供了历史数据清理的功能,能够让业务无感的进行历史数据的删除清理,部分场景在清理完成后碎片率大增,存储回收效果一般,面对这种情况,研发需要自行选择一个时间做优化表操作,操作审批繁琐,如何简化操作降低存储水位变成了一个业务侧迫切希望解决的问题。
  2. 在数据库的变更中,DDL的变更是风险较高的一个操作,特别在分库分表的场景下如何控制DDL变更风险是业务同学对DMS提出的问题。
  3. 数据订阅作为众多中台产品的上游,提供了诸如应用缓存失效、广告推送、搜索推荐以及双十一独有的GMV大屏等业务场景的功能基础,今年新引入的库仓一体化架构OLTP到OLAP能力,为手淘交易订单搜索功能带来的能力提升和用户体验大幅优化
  4. 手淘订单搜索,用户订单搜索命中率低,用户可能只记得商品名的模糊信息和商品店铺的信息,老链路的订单搜索只能根据查询关键字在数据库进行like匹配,如果输入的关键词不准确可能搜不到订单;如果搜索词过短,用户查找订单时间长,用户为了增大命中率,会输入较短的关键词,这样查询的订单数量过多,同时搜索的结果又没有分类,用户要在搜索结果中找目标订单,只能滑动下一页,查寻时间长,只能在双十一大促期间进行功能降级。
  5. 2021年双11大促,首次所有集团数据库100%上云,海量实例同时部署在中心站,集团作为VIP客户和公有云客户同region部署,这样会使得备份存储的流量压力非常大,如果没有相关的技术方案,会导致集团上云和公有云客户相互影响,而增量备份又是这里面的核心问题,当备份存储流量压力非常大的时候,增量数据堆积会导致客户日志磁盘空间打满导致实例RO,以及无法恢复到任意时间点。


技术升级


无锁数据变更、无锁表优化


通常在历史数据删除场景下,delete语句会携带时间等条件,而时间条件并不一定存在索引,会导致删除速度极慢,且占用数据锁;同时如果删除数据量较大,会受binlog事务大小约束导致失败。


DMS通过将大事务转化为小事务的方式,控制执行时间、控制事务影响行数,通过优化后400GB的表删除一千万条数据约40g,缓慢删除占用时长5个小时,0条慢SQL。


通过无锁数据变更完成对超大表的历史数据清理之后,再通过DMS的无锁变更技术,重新对表数据做一次搬迁,达到优化表空间的目的。


DDL灰度变更


业务同学在对数据表进行结构变更时,通常DDL是一个整体事务,一旦出现问题整张表不可访问。而在分库分表场景下,在逻辑表维度上的业务被拆分为了多份,如果仍然整体进行变更,将不会发挥分库分表在变更上的优势。


利用这些分片来降低变更风险进行灰度是一个比较好的选择,通过灰度策略控制,定义分库分表的灰度策略为单表级别灰度、单库下灰度、单实例下灰度三种方式。有了灰度,用户结构变更更加淡定。


高效数据备份


大促峰值日志备份PITR能力不降级,DMS对集团XDB产生Binlog的数据进行了压缩裁剪,同时结合集团XDB多副本节点的日志特性做到只备一份日志的能力。


流量分流:DMS对XDB的日志进行实时备份,在内部加了流量规则,可以将部分XDB Cluster的实例备份到其他存储上,达到分流的作用。

少流量产生:DMS对XDB产生的binlog数据进行了压缩裁剪,只备份了XDB leader上面的数据,由于XDB leader&follower上binlog完全一致,所以在异常恢复流程,只要找到对应的binlog断开的位置,衔接上follower的日志即可。

流量隔离:考虑到集团上云客户和公有云客户在备份流量和数量上的相互影响,所以对集团上云全量/增量,公有云其他客户全量/增量,进行了bucket隔离,同时对全量bucket进行了业务流量预测的限流,保证了公有云客户&集团上云客户增量有较大的上限,不至于流量不够导致无法满足秒级RPO。

0点峰值表现:第一次实现了双十一大促日志备份不中断,保障了秒级RPO,集团峰值流量日志写入备份存储流量和总流量达到了数百Gb/s,保证了实时写入RPO。


库仓一体技术架构


之前是通过数据库T+1到数据仓库再回流到数据库展示相应的计算结果,链路较长,维护使用成本高,数据延迟大,高峰期对源库影响大,往年的大促过程淘宝的历史订单搜索功能是限流使用的。


今年通过DMS+ADB一键实现的库仓一体化架构实现了实时的数据获取、实时传输与加工、实时查询与展现,实现了全实时支持多维数据分析场景的交易订单搜索能力,0点峰值DMS写ADB在RPS百万级别的流量下全程毫秒级延迟,ADB实时查询结果毫秒级返回。经过库仓一体技术架构升级后,手淘订单搜索增加了“猜你想搜” 和 “类目搜索”的能力:


  1. 猜你想搜:根据搜索词推荐联想词和店铺名,用户可以点击联想词和店铺名进行搜索,增加用户搜索的命中率;

  2. 类目搜索:增加了按店铺名进行搜索的功能,使得用户搜索得到的订单列表按类目进行分类,用户订单根据tab页分类,减少每个tab的下拉数量。


最终通过库仓一体架构,解决了过去大促功能降级给用户带来的使用影响,在本次双十一过程中的功能完全开放使用。


image.png


库存业务


基于阿里巴巴单元化架构的基础,用户购买商品时下单流量会被分流到各单元。DMS数据实时同步能力保障了各单元间数据库中数据的实时一致,同时DMS提供的数据实时订阅功能是库存应用基于数据库变化实时更新缓存服务的功能基础。这些能力保证了用户在客户端的下单流程中对于剩余库存所见即所得,提升了整个购物体验。


DMS在库存业务百万级别RPS的流量压力下,保证了全链路高效稳定。


交易&GMV大屏


在交易业务上,DMS为面向社会的GMV媒体大屏和面向内部高管的大屏提供最上层实时数据消费的能力。链路上的问题会直接影响到大屏上的数据准确性,为了保障稳定性,DMS在交易链路上采用了全链路主备服务的双活架构,最终在交易峰值百万级别RPS的流量下保障了GMV全链路高可用。


DMS支撑大促小结


DMS在2021天猫双十一期间:


  1. 用数据脱敏方式保护了近50万次敏感数据的动态实时访问和静态访问,首次上线的精细封网管控,使得安全生产效率提升50%,有效拦截大查询千余次,拦截DDL变更百余次
  2. 支撑了100%集团上云实例恢复秒级RPO的功能,引入技术方案将流量带宽占用降低了50%,首次支持使用非OSS存储分担大促峰值流量,保证了峰值流量增量备份不降级,全面保障了集团上云核心交易场景可以随时将数据恢复到任意时间点,提升了整个双11的稳定性。
  3. 全网同步链路上万条,订阅任务几十万个,大促0点流量峰值期间,数分钟内累计从源库拉取PB级日志数据,累计向目标库写入上千亿条事务,期间全网任务无中断,核心任务无延迟。


相关实践学习
MySQL基础-学生管理系统数据库设计
本场景介绍如何使用DMS工具连接RDS,并使用DMS图形化工具创建数据库表。
相关文章
|
14天前
|
人工智能 Cloud Native 数据管理
媒体声音|阿里云王远:一站式数据管理平台的智能化跃迁
在DTCC 2024大会上,阿里云数据库产品管理与技术架构部负责人王远与IT168 & ITPUB特约嘉宾薛晓刚就数据库与AI技术的融合、云原生数据库的新趋势及向量数据库的支撑能力等热点话题进行了深入探讨。王远认为,Data+AI不仅是一个概念,已进入实际落地阶段。在智能化时代,单一数据库引擎难以满足多元业务需求,需要构建统一的数据管理能力,以支持不同工作负载。阿里云通过“瑶池”数据库品牌,提供云原生、平台化、一体化和智能化的数据库解决方案,助力用户应对复杂的数据管理挑战。
|
1月前
|
数据采集 DataWorks 数据管理
DataWorks不是Excel,它是一个数据集成和数据管理平台
【10月更文挑战第10天】随着大数据技术的发展,企业对数据处理的需求日益增长。阿里云推出的DataWorks是一款强大的数据集成和管理平台,提供从数据采集、清洗、加工到应用的一站式解决方案。本文通过电商平台案例,详细介绍了DataWorks的核心功能和优势,展示了如何高效处理大规模数据,帮助企业挖掘数据价值。
83 1
|
1月前
|
数据采集 SQL DataWorks
DataWorks不是Excel,它是一个数据集成和数据管理平台
【10月更文挑战第5天】本文通过一家电商平台的案例,详细介绍了阿里云DataWorks在数据处理全流程中的应用。从多源数据采集、清洗加工到分析可视化,DataWorks提供了强大的一站式解决方案,显著提升了数据分析效率和质量。通过具体SQL示例,展示了如何构建高效的数据处理流程,突显了DataWorks相较于传统工具如Excel的优势,为企业决策提供了有力支持。
88 3
|
3月前
|
存储 人工智能 数据管理
OSS&Tablestore 向量检索能力全新升级,重塑AI时代数据管理
阿里云 OSS Indexing 发布了向量索引和检索能力。该功能除了可以对 OSS Meta 进行检索之外,还可以对多媒体数据元信息、用户自定义元数据以及向量语义进行检索。OSS Indexing 功能,是依托阿里云表格存储 TableStore 提供的索引存储和检索能力而构建的。表格存储针对成本、规模、召回率等挑战,发布了低成本、大规模、高性能、高召回率的向量检索服务,能以较低成本支持千亿规模数据的存储和检索。
227 8
|
3月前
|
存储 人工智能 NoSQL
OSS&Tablestore 向量检索能力全新升级,重塑AI时代数据管理
近日,阿里云成功举办了“AI驱动:数据管理的进化与创新 ”线上新品发布会。发布会上,阿里云存储产品向量检索能力全新升级,重塑AI时代数据管理。
|
3月前
|
机器学习/深度学习 前端开发 数据挖掘
基于Python Django的房价数据分析平台,包括大屏和后台数据管理,有线性、向量机、梯度提升树、bp神经网络等模型
本文介绍了一个基于Python Django框架开发的房价数据分析平台,该平台集成了多种机器学习模型,包括线性回归、SVM、GBDT和BP神经网络,用于房价预测和市场分析,同时提供了前端大屏展示和后台数据管理功能。
100 9
|
4月前
|
运维 数据管理 数据库
数据管理DMS操作报错合集之数据归档时,遇到报错:"DMS获取内容为空,无须备份",该怎么办
阿里云数据管理DMS提供了全面的数据管理、数据库运维、数据安全、数据迁移与同步等功能,助力企业高效、安全地进行数据库管理和运维工作。以下是DMS产品使用合集的详细介绍。
|
4月前
|
Java 数据管理 API
构建基于Spring Boot的数据管理平台
构建基于Spring Boot的数据管理平台
|
4月前
|
运维 数据管理 关系型数据库
数据管理DMS使用问题之DMS在创建数据库时遵循什么规则
阿里云数据管理DMS提供了全面的数据管理、数据库运维、数据安全、数据迁移与同步等功能,助力企业高效、安全地进行数据库管理和运维工作。以下是DMS产品使用合集的详细介绍。
|
3月前
|
物联网 数据管理 Apache
拥抱IoT浪潮,Apache IoTDB如何成为你的智能数据守护者?解锁物联网新纪元的数据管理秘籍!
【8月更文挑战第22天】随着物联网技术的发展,数据量激增对数据库提出新挑战。Apache IoTDB凭借其面向时间序列数据的设计,在IoT领域脱颖而出。相较于传统数据库,IoTDB采用树形数据模型高效管理实时数据,具备轻量级结构与高并发能力,并集成Hadoop/Spark支持复杂分析。在智能城市等场景下,IoTDB能处理如交通流量等数据,为决策提供支持。IoTDB还提供InfluxDB协议适配器简化迁移过程,并支持细致的权限管理确保数据安全。综上所述,IoTDB在IoT数据管理中展现出巨大潜力与竞争力。
106 1