双11特刊|一站式在线数据管理平台DMS技术再升级,高效护航双11-阿里云开发者社区

开发者社区> 大涛学长> 正文

双11特刊|一站式在线数据管理平台DMS技术再升级,高效护航双11

简介: 10万+企业共同选择的数据库服务平台
+关注继续查看


阿里云数据库已连续多年稳定支撑天猫双11,历经极端流量场景淬炼。除了保障稳定顺滑的基本盘,今年大促期间数据库通过全面云原生化,大幅提升用户体验,让技术帮助业务产生更有价值的消费者体验,持续通过技术创新赋能用户,引领技术发展路径。


双11已圆满落幕,但技术的探索,仍未止步。

“阿里云数据库” 公众号特此推出《好科技的新起点——2021双11阿里云数据库技术揭秘》系列干货文章,为你讲述年度“技术大考”背后的故事,敬请关注!


前言


阿里云一站式在线数据管理平台DMS,从最早的服务于集团内部业务的各个工具型产品,经历了阿里集团数据库各个时期的技术及架构演进、历年双十一的大促考验、云原生转型,演进到今天以统一的云架构,向阿里集团内部以及外部云客户提供一站式的数据管理服务,产品不断的拓展边界,提升技术深度,将阿里集团超大规模数据的管理方法,推向和服务于所有开发者。


image.png


关键组件


数据管理DMS: 作为数据库团队2009年上线给研发同学使用的一站式数据库开发平台,为集团、蚂蚁以及公有云客户提供数据库实时访问、数据库研发规范落地、数据安全管理以及安全生产等能力。同时结合数据库备份DBS能力为用户提供一站式公共云,混合云,线下自建数据库备份,除了稳定的备份恢复外,在2019年发布了云原生CDM(Cloud Data Management)能力,实现备份数据秒级恢复,支撑了金融、教育、游戏等广泛的客户业务场景。


数据备份DBS:是数据库团队2017年发布的数据库备份产品,为用户提供一站式公共云,混合云,线下自建数据库稳定的备份服务,同时在2019年release了阿里云第一款云原生CDM产品,利用云的特性帮助客户数据秒级恢复,秒级恢复产品已经支撑了教育,游戏,等重要客户场景。


数据传输DTS:(Data Transmission Service,简称DTS),从2011开始支撑阿里集团容灾到异地多活到阿里云官网上云,于2015年4月命名为DTS完成产品化,是全球第一个公有云数据传输产品,融合了阿里集团的性能和业务特点与公有云的数据源多样性。集数据迁移、订阅及实时同步功能于一体,能够解决公共云、混合云场景下,远距离、秒级异步数据传输难题。其底层基础设施采用阿里双11异地多活架构,为数千下游应用提供实时数据流,已在线上稳定运行6年之久。DTS支持关系型数据库、NoSQL、大数据(OLAP)等数据源,在传统商业数据库迁移尤其是Oracle、DB2 大机&小机系列等商业数据库具备兼容评估转换和实时同步能力。


DMS 总述


DMS :  结合数据管理、数据备份、数据传输的技术沉淀,统一打造为全新DMS产品,为用户提供一站式的全域数据资产管理、数据库设计开发、数据集成与开发的全链路能力,在2021双十一期间,为集团用户提供全方位的数据资产管理服务。


image.png


业务挑战


  1. 部分业务由于历史数据堆积,使得存储水位过高、表越来越大RT上升,面对这类问题DMS提供了历史数据清理的功能,能够让业务无感的进行历史数据的删除清理,部分场景在清理完成后碎片率大增,存储回收效果一般,面对这种情况,研发需要自行选择一个时间做优化表操作,操作审批繁琐,如何简化操作降低存储水位变成了一个业务侧迫切希望解决的问题。
  2. 在数据库的变更中,DDL的变更是风险较高的一个操作,特别在分库分表的场景下如何控制DDL变更风险是业务同学对DMS提出的问题。
  3. 数据订阅作为众多中台产品的上游,提供了诸如应用缓存失效、广告推送、搜索推荐以及双十一独有的GMV大屏等业务场景的功能基础,今年新引入的库仓一体化架构OLTP到OLAP能力,为手淘交易订单搜索功能带来的能力提升和用户体验大幅优化
  4. 手淘订单搜索,用户订单搜索命中率低,用户可能只记得商品名的模糊信息和商品店铺的信息,老链路的订单搜索只能根据查询关键字在数据库进行like匹配,如果输入的关键词不准确可能搜不到订单;如果搜索词过短,用户查找订单时间长,用户为了增大命中率,会输入较短的关键词,这样查询的订单数量过多,同时搜索的结果又没有分类,用户要在搜索结果中找目标订单,只能滑动下一页,查寻时间长,只能在双十一大促期间进行功能降级。
  5. 2021年双11大促,首次所有集团数据库100%上云,海量实例同时部署在中心站,集团作为VIP客户和公有云客户同region部署,这样会使得备份存储的流量压力非常大,如果没有相关的技术方案,会导致集团上云和公有云客户相互影响,而增量备份又是这里面的核心问题,当备份存储流量压力非常大的时候,增量数据堆积会导致客户日志磁盘空间打满导致实例RO,以及无法恢复到任意时间点。


技术升级


无锁数据变更、无锁表优化


通常在历史数据删除场景下,delete语句会携带时间等条件,而时间条件并不一定存在索引,会导致删除速度极慢,且占用数据锁;同时如果删除数据量较大,会受binlog事务大小约束导致失败。


DMS通过将大事务转化为小事务的方式,控制执行时间、控制事务影响行数,通过优化后400GB的表删除一千万条数据约40g,缓慢删除占用时长5个小时,0条慢SQL。


通过无锁数据变更完成对超大表的历史数据清理之后,再通过DMS的无锁变更技术,重新对表数据做一次搬迁,达到优化表空间的目的。


DDL灰度变更


 业务同学在对数据表进行结构变更时,通常DDL是一个整体事务,一旦出现问题整张表不可访问。而在分库分表场景下,在逻辑表维度上的业务被拆分为了多份,如果仍然整体进行变更,将不会发挥分库分表在变更上的优势。


利用这些分片来降低变更风险进行灰度是一个比较好的选择,通过灰度策略控制,定义分库分表的灰度策略为单表级别灰度、单库下灰度、单实例下灰度三种方式。有了灰度,用户结构变更更加淡定。


高效数据备份


大促峰值日志备份PITR能力不降级,DMS对集团XDB产生Binlog的数据进行了压缩裁剪,同时结合集团XDB多副本节点的日志特性做到只备一份日志的能力。


流量分流:DMS对XDB的日志进行实时备份,在内部加了流量规则,可以将部分XDB Cluster的实例备份到其他存储上,达到分流的作用。

少流量产生:DMS对XDB产生的binlog数据进行了压缩裁剪,只备份了XDB leader上面的数据,由于XDB leader&follower上binlog完全一致,所以在异常恢复流程,只要找到对应的binlog断开的位置,衔接上follower的日志即可。

流量隔离:考虑到集团上云客户和公有云客户在备份流量和数量上的相互影响,所以对集团上云全量/增量,公有云其他客户全量/增量,进行了bucket隔离,同时对全量bucket进行了业务流量预测的限流,保证了公有云客户&集团上云客户增量有较大的上限,不至于流量不够导致无法满足秒级RPO。

0点峰值表现:第一次实现了双十一大促日志备份不中断,保障了秒级RPO,集团峰值流量日志写入备份存储流量和总流量达到了数百Gb/s,保证了实时写入RPO。


库仓一体技术架构


之前是通过数据库T+1到数据仓库再回流到数据库展示相应的计算结果,链路较长,维护使用成本高,数据延迟大,高峰期对源库影响大,往年的大促过程淘宝的历史订单搜索功能是限流使用的。


今年通过DMS+ADB一键实现的库仓一体化架构实现了实时的数据获取、实时传输与加工、实时查询与展现,实现了全实时支持多维数据分析场景的交易订单搜索能力,0点峰值DMS写ADB在RPS百万级别的流量下全程毫秒级延迟,ADB实时查询结果毫秒级返回。经过库仓一体技术架构升级后,手淘订单搜索增加了“猜你想搜” 和 “类目搜索”的能力:


  1. 猜你想搜:根据搜索词推荐联想词和店铺名,用户可以点击联想词和店铺名进行搜索,增加用户搜索的命中率;

  2. 类目搜索:增加了按店铺名进行搜索的功能,使得用户搜索得到的订单列表按类目进行分类,用户订单根据tab页分类,减少每个tab的下拉数量。


最终通过库仓一体架构,解决了过去大促功能降级给用户带来的使用影响,在本次双十一过程中的功能完全开放使用。


image.png


库存业务


基于阿里巴巴单元化架构的基础,用户购买商品时下单流量会被分流到各单元。DMS数据实时同步能力保障了各单元间数据库中数据的实时一致,同时DMS提供的数据实时订阅功能是库存应用基于数据库变化实时更新缓存服务的功能基础。这些能力保证了用户在客户端的下单流程中对于剩余库存所见即所得,提升了整个购物体验。


DMS在库存业务百万级别RPS的流量压力下,保证了全链路高效稳定。


交易&GMV大屏


在交易业务上,DMS为面向社会的GMV媒体大屏和面向内部高管的大屏提供最上层实时数据消费的能力。链路上的问题会直接影响到大屏上的数据准确性,为了保障稳定性,DMS在交易链路上采用了全链路主备服务的双活架构,最终在交易峰值百万级别RPS的流量下保障了GMV全链路高可用。


DMS支撑大促小结


DMS在2021天猫双十一期间:


  1. 用数据脱敏方式保护了近50万次敏感数据的动态实时访问和静态访问,首次上线的精细封网管控,使得安全生产效率提升50%,有效拦截大查询千余次,拦截DDL变更百余次
  2. 支撑了100%集团上云实例恢复秒级RPO的功能,引入技术方案将流量带宽占用降低了50%,首次支持使用非OSS存储分担大促峰值流量,保证了峰值流量增量备份不降级,全面保障了集团上云核心交易场景可以随时将数据恢复到任意时间点,提升了整个双11的稳定性。
  3. 全网同步链路上万条,订阅任务几十万个,大促0点流量峰值期间,数分钟内累计从源库拉取PB级日志数据,累计向目标库写入上千亿条事务,期间全网任务无中断,核心任务无延迟。


版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
阿里云服务器怎么设置密码?怎么停机?怎么重启服务器?
如果在创建实例时没有设置密码,或者密码丢失,您可以在控制台上重新设置实例的登录密码。本文仅描述如何在 ECS 管理控制台上修改实例登录密码。
9901 0
双11核心系统100%上云 !阿里数据库处理峰值远超传统厂商
刚刚结束的天猫双11创下了两项新记录:交易额2684亿,订单峰值54.4万笔/秒,阿里巴巴集团CTO张建锋在当晚宣布,双11核心系统100%上云,背后作为数据核心支撑的自研数据库OceanBase和POLARDB每秒处理峰值都远远超越传统Oracle数据库。
950 0
【双11背后的技术】永不停止的脚步——数据库优化之路
作者:佳毅 前言 2016年双11已经顺利落下帷幕,在千亿电商流量的冲击下,集团数据库整体表现完美。完美表现的背后,隐藏着数据库团队对技术的执着追求。这是一个什么样的团队,他们究竟做了什么,是什么支持着双11这一全民狂欢的数字一次次突破?笔者以一个亲历者的角度来给大家揭开双11背后,阿里巴巴数据库团队的神秘面纱。
5372 0
新一代数据库技术在双11中的黑科技
12月13-14日,由云栖社区与阿里巴巴技术协会共同主办的《2017阿里巴巴双11技术十二讲》顺利结束,集中为大家分享了2017双11背后的黑科技。本文是《新一代数据库技术在双11中的应用》演讲整理,本文主要从数据库上云和弹性调度开始谈起,重点分享了新一代数据库以及其在双11中的应用,包括X-DB、X-KV和ESDB等。
3253 0
手淘双11最新实践:PopLayer弹层领域业务研发模式升级
背景 近年来,各大APP内的弹层需求逐渐增多,以手机淘宝为例,日常的弹层上线频率为单端每月50次左右,而在大促期间可以达到240次以上。在手淘内,各类弹层业务都会通过PopLayer中间件的能力进行管理。但业务往往会遇到开发弹层难、慢、稳定性差的种种困难。对比于往年业务研发成本较高的现状,PopLayer在今年提出了【低研发搭建模式】来解决这类问题,形成一套快速搭建+可视化+多端多场景通用的解决
411 0
支付宝双11工程师:半个月升级几十次,峰值到来前紧张到手抖
蚂蚁金服金融级分布式架构 SOFAStack 获得了“十三五”金融科技产业示范案例奖
512 0
阿里云服务器如何登录?阿里云服务器的三种登录方法
购买阿里云ECS云服务器后如何登录?场景不同,阿里云优惠总结大概有三种登录方式: 登录到ECS云服务器控制台 在ECS云服务器控制台用户可以更改密码、更换系.
13640 0
双11数据大屏直播 / 双11作战大屏
双11大屏直播地址:https://h5.m.taobao.com/qn/pc/niuba-interview.html?spm=a1zb6.8232479.0.0.qfgVCn#!/interview/10035359
8941 0
【双11背后的技术】双11背后的大规模数据处理
【双11背后的技术】总目录:https://yq.aliyun.com/articles/68637 —————————————————————— 作者:惠岸 朋春 谦乐  1. 实时数据总线服务-TT TimeTunnel(TT)在阿里巴巴集团内部是一个有着超过6年历史的实时数据总线服务,它是前台在线业务和后端异步数据处理之间的桥梁。
4922 0
【双11背后的技术】万亿级数据洪峰下的分布式消息引擎
作者:冯嘉、誓嘉、尘央、牟羽  前言 通过简单回顾阿里中间件(Aliware)消息引擎的发展史,本文开篇于双11消息引擎面临的低延迟挑战,通过经典的应用场景阐述可能会面临的问题 - 响应慢,雪崩,用户体验差,继而交易下跌。
5779 0
+关注
大涛学长
分享文章~
34
文章
0
问答
来源圈子
更多
阿里云数据库:帮用户承担一切数据库风险,给您何止是安心!支持关系型数据库:MySQL、SQL Server、PostgreSQL、PPAS(完美兼容Oracle)、自研PB级数据存储的分布式数据库Petadata、自研金融级云数据库OceanBase支持NoSQL数据库:MongoDB、Redis、Memcache更有褚霸、丁奇、德哥、彭立勋、玄惭、叶翔等顶尖数据库专家服务。
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载