数据库是整个企业数据最核心的承载载体,在线上使用过程中,用户经常会遇到以下问题:如何保障业务连续性、数据库研发效率低、数据库存在性能瓶颈及数据存在安全风险等等。
本次的企业级数据库专场中,我们邀请到了数位阿里巴巴资深专家及高级专家为大家分享阿里巴巴的数据库实践经验及产品化解决方案,同时也邀请了客户朋友到现场分享他们的数据库最佳实践。
云时代,数据库容灾解决方案
阿里云智能资深技术专家 陈长城
云时代,灾备建设的契机
正如投资理财,为分散风险把鸡蛋分散在不同的篮子里。业务上,为了保障服务连续性,我们也需要针对核心业务建设数据冗余灾备。针对容灾课题,国家正式出台了灾难恢复等级定义。除了测试业务外,所有的线上业务都需要构建数据灾备。
其中,一般业务需要实现等级三的灾备能力,灾备的RPO/RTO为天级别;重要业务需要实现等级四的灾备能力,RPO/RTO为小时级别;对于关键业务,要求发生故障时,不能丢失超过30分钟的数据,且要在1小时内恢复业务;而对于核心业务则要做到故障时,“0”数据丢失,且在分钟级别恢复整个业务。
对于企业来说,要投资建设满足国标要求的灾备系统,存在如下的痛点:
1,投入大
要做业务的灾备,企业往往要有大笔的初始投资,且后续的维护成本也非常高。
2,可靠性
灾备数据可靠性难保障。
3,可验证
备份集的可用性存疑,导致故障切换存在极大风险。出于切换风险的考虑,很多企业在业务发生故障时,都选择等待故障自动恢复。
云时代,新容灾技术方案
随着云计算的发展,企业容灾体系已迎来新的技术趋势:
- 容灾副本的在线化、可分析、可服务
- 数据安全性得到产品级保障。
- 分钟级乃至秒级RPO、RTO技术逐渐成熟
- 云存储的边际成本降低,技术变得更加普惠。
- 阿里云已上线了系列数据库容灾产品。包括数据传输服务DTS及数据库备份DBS。
数据库备份DBS是为企业提供连续数据保护、低成本的数据备份服务。DBS基于实时监听及备份数据库事务日志,可实现秒级RPO的备份能力。DBS支持备份集在线查询,有效保障备份集的可用性。同时,DBS基于压缩加密及备份集生命周期管理能力,极大降低备份集的存储成本。借助DBS,企业可轻松实现云备份、跨云备份、异地备份及云下备份等业务场景。
阿里云数据传输服务DTS,支持关系型数据库、NoSQL、大数据(OLAP)等数据源间的数据传输。它是一种集数据迁移、数据订阅及数据实时同步于一体的数据传输服务。企业可以借助DTS实现业务零停机上云、异地灾备、异地多活及数据仓库数据实时导入等业务诉求。目前DTS支持多达18种数据源,已服务40万+数据库实例。
借助DTS,企业可以建设秒级RPO/秒级RTO的热备中心。当业务出现故障的时,可以秒级切换到热备中心。除了热备场景,DTS还可以帮助企业快速构建异地多活,异地多个业务中心互为备份,所有中心的数据保持一致,任意一个中心出现异常,业务可秒级切换到其他中心,有效保障服务连续性。
阿里云一站式数据库容灾方案
为了降低企业管理成本,阿里云还推出数据管理DMS及混合云数据库管理HDM。借助DMS+HDM可实现数据库安全研发及性能诊断优化。
数据传输DTS技术原理全面揭秘
阿里巴巴高级技术专家付大超
现如今,上云已是一个不可逆的趋势,企业上云最困难的部分是数据上云。企业总是苦恼如何在不影响业务的情况下,平滑的完成数据库的上云迁移。为帮助企业实现业务的平滑上云,阿里云于2015年上线了数据传输服务DTS。
技术原理
付大超为大家深度揭秘DTS的技术架构及技术原理。DTS历经数十年的研发,承载了阿里巴巴集团线上所有的实时数据流链路,经历了数年的双11大考。DTS具备如下的产品优势:
- 异构支持:支持多达18种商业数据库及源数据库的同异构同步。
- 功能完整性:DTS支持结构迁移、数据迁移、增量迁移、数据订阅、数据校验等各种需求,支持全量数据、增量数据,DDL及DML。
- 分布式并发架构:采用分布式智能并发模式,可以自动部署多个节点并发处理数据流,突破单机极限,水平扩展系统吞吐量。
- 合并提交:根据事务的依赖关系、利用独有的事务冲突合并机制并行提交,极大提升到目标端的写入速度。
- 智能分片:对源数据采用多种智能分片策略,保证数据传输的并行能力并控制写入放大。
- 并行抓取:数据抓取和数据写入完全并行,极大提高系统的整体吞吐能力。独立、并行的数据抓取模块同时能提供最大程度的数据保护,避免源端数据可能出现的各种状况,例如数据被清理、数据丢失、日志过期、等等。
- 幂等同步:采用独有的幂等同步算法,合并热点、解决数据重复、多次提交等疑难问题,完美解决断点续传以及各种数据冲突场景。
- 加密压缩:提供智能数据压缩能力,根据网络环境选择数据压缩,极大节省网络带宽并提高网络传输速度,提升数据迁移的整体性能。
- 双向同步:利用阿里的异地多活经验,通过独有事务冲突并发机制,保证双向数据同步高效安全。
- 去O迁移:支持Oracle各种主流版本以及所有基础数据类型,支持全量、增量、数据订阅,覆盖去O各种场景。
- 数据过滤:全量初始化和增量同步支持配置where条件的数据过滤,简单方便的支持符合where条件的数据实时同步功能,满足用户的个性化需求。
- 库表映射:提供灵活的库、表、列级别的自定义映射功能,利用DTS独有的数据和SQL解析机制实现源和目的库的库表列不同名称下的数据同步
实战场景:双11媒体大屏
双11期间,阿里巴巴的媒体大屏会实时呈现当天交易额。交易额数据需要经过数据采集、数据加工、数据存储及可视化的系列处理流程。DTS承载了关键的数据采集环节,全程保障毫秒级的采集同步延迟,从而有效保障了交易数据的实效性。
当然还有更多的企业使用DTS来解决零停机数据上云、异地灾备、异地多活及数据仓库数据实时导入的业务场景。如想了解更多场景可以参考产品介绍。
企业级数据库敏捷开发模式
阿里云资深专家罗奇
对于很多企业来说,他们需要管理几十个甚至上百的数据库实例。在管理及使用数据库的过程中,他们总是会各种各样的问题。本次议题阿里云资深专家罗奇结合阿里巴巴10年经验沉淀,为大家详解如何借助阿里云数据管理DMS如何实现数据库敏捷开发模式。
为了提升企业数据安全及研发效率,阿里云于2015年上线数据管理DMS。借助DMS,企业可以解决数据库访问控制、数据库Devops及数据库变更稳定性。下面是DMS详细的应用场景:
权限管控
当今,企业内部使用数据库的角色众多,企业的数据库权限一般都由DBA统一分配管理。所有角色直接连接数据库进行相关操作。这种权限管控模式存在DBA单点瓶颈及安全风险的问题。
通过DMS,企业员工不再直接接触数据库账号,而是通过DMS进行权限管控联动。DMS可以将数据库操作审计到人,且可实现权限跟企业人员变动的联动,有效保障企业数据安全。
数据查询
企业内部不同角色(例研发、运维、产品等)都有访问查询线上数据库的诉求。目前,大部分企业的工作模式是:由DBA分配查询权限,业务同学直连查询线上库。这种工作模式涉及大量的前期沟通,且会面临数据泄漏、数据库稳定性及产品迭代速度不可控等风险。数据管理DMS提供了安全的数据查询能力。用户进行数据查询时,DMS会自动进行权限、访问来源、SQL性能影响等检查。当通过前置检查后,DMS会通过数据库性能实时监测、敏感数据脱敏及操作审计等策略,有效保障查询过程中的数据安全。
表结构变更
因传统表结构变更会导致锁表,从而严重影响线上业务,所以很多数据库管理员都不敢轻易对线上库进行表结构变更。
为降低企业表结构变更的成本,数据管理DMS上线了可视化表结构设计及在线变更功能。用户进行表结构变更时,DMS会自动进行变更前的风险评估,设计规范审核、索引合理性检查。当通过前置检查且完成审批后, DMS会通过在线不锁表变更、变更并发度控制及数据库性能实时监测等措施,有效规避表结构变更对数据库稳定性及线上业务的影响。
数据变更
当前,企业为了保障数据库稳定性,数据变更操作一般都需要通过DBA人工审核及执行。这种工作方式存在沟通成本高,变更效率低及变更风险大等问题。
为解决这些问题,DMS提供了数据变更功能。用户进行数据变更时, DMS会进行变更语法准确性校验、用户权限检测、敏感数据权限分析、变更数据量评估及数据库性能分析等前置检查;当前置检查通过且完成审批流程后,DMS会进行数据备份用以变更异常后的数据回滚。在变更过程中,DMS会根据数据库的性能压力自动优化变更流程。同时,当变更涉及数据量较时,DMS会将变更操作拆分成小事务,降低单次变更影响的记录数。通过丰富的前置检查、数据库备份及操作拆分等策略,DMS可有效保障数据变更过程中数据库的稳定性。
新型的数据库敏捷研发模式
除了保障数据安全及数据库稳定性外,DMS还支持新的数据库研发模式—数据库Devops。DMS为企业提供数据库研发规范、数据库版本管理及数据库发布自动化能力。基于DMS,企业可以实现全自助的数据库研发流程,完全摆脱人工交互的低效率及高风险。
混合云时代,数据库管理的挑战与实践
阿里巴巴产品专家 胡航丽
数据库管理的新挑战
随着企业业务的发展,企业使用的数据库种类越来越多,数据库部署环境越来越丰富,随之而来数据库管理成本也越来越高。当前,企业主要面临如下挑战:
1,数据库分布环境较广,原来数据库管理平台已不能覆盖各环境的数据库,管理成本高。
2,在混合云构建过程中,搬站上云面临着数据库选型、评估、测试等一系列复杂的工作。
3,同时,很多企业采用的数据库种类越来越多,数据库管理成本显著提升。
解决方案及核心技术
为降低企业数据库管理的成本,阿里云推出混合云数据库管理HDM。HDM具备如下几个核心优势:
One Console:完成多环境多种数据库的统一监控告警及运维管理。
企业级服务:在实例管理维度之外,提供企业级管理特性,包括Dashboard、应用分组管理及灰度管控等。
Self-Driving: HDM基于阿里巴巴丰富的DBA经验及机器学习的手段,实现数据库的自诊断、自决策、自优化、自安全,帮助企业用户诊断优化数据库性能瓶颈及安全风险。
数据库自治服务HDM
随着业务的快速迭代发展,DBA总会思考这样一个问题:如何在数据库规模越来越大的时候,还能保证数据库异常的快速诊断优化,以实现数据库平稳、安全运行。2017年阿里巴巴也在思考这个问题,那一年我们确定并开始了下一代数据库自治服务——Self-Driving Database Platform HDM的迭代演进。
目前阿里巴巴集团内部大规模上线了 HDM的自优化能力,并取得不俗的表现:
1,截止2018年,HDM自动优化了2900多万的慢SQL,慢SQL从2017年的2000万+的数量降到现在的400万+。
2,截止2018年,HDM的自动空间优化帮助集团节省了2.7PB的数据存储空间。
- HDM能够支持30+告警场景的自动监测及自动修复,自动修复的成功率高达93.3%。
目前,HDM已为数万阿里云用户提供服务,为企业用户提供阿里云云数据库、ECS自建数据库、IDC自建数据库及其他云厂商数据库的统一运维管理。
目前HDM还在公测状态,欢迎大家免费试用!
RDS管控架构介绍及未来展望
阿里巴巴高级技术专家 韦仁忠
韦仁忠在这次大会为大家详细讲解了阿里云云数据库的管控架构及未来展望。
云数据库管控架构
数据库管控架构是非常庞大的系统工程,维护了数据库的全生命周期管理,整个架构中包含监控、高可用切换,异常自愈、智能告警等接近100个以上的服务组件。
数年的研发实践,我们的管控系统具备如下的核心优势:
1,低成本
低成本来源于规模化和自动化程度的提高。我们会根据库存和资源利用率分析最佳的资源分配模型,充分利用资源碎片降低成本。在硬件采购部署的过程当中,我们做到了一键化的部署,做到主机采购、部署上线、分配实例、主机故障下线的闭环。在硬件演进方面,每年都有至少一款新主力机型的迭代,同时我们也在不断的利用新硬件、新技术的红利,例如RDMA技术和25G网络等。
2,稳定
稳定性来源于完善的架构设计,及监控探测和快速恢复能力。RDS将主备部署在不同的机架,不同的交换机甚至不同的机房下,以实现不同级别的容灾能力。同时通过主备之间的同步的快速探测和切换,保障在故障情况下能够快速切换到容灾节点完成服务恢复。
3,弹性
在弹性能力上,我们在过去的一两年内通过架构的不断升级,从计算存储一体化的基础上升级到计算存储分离的架构。然后利用云原生能力,实现分钟级弹性伸缩。
4,安全
对于数据库来说,安全是企业的生命线。针对阿里云云数据库,我们覆盖了事前,事中,事后的全方位安全保护。做到事前防护,事中保护和事后审计。
未来:用新的技术拓展新的商业模式
1,云原生开放生态,探索集群管理模式,让客户感知集群的存在。
2,极致弹性:把小时级别的弹性能力扩展到分钟级别。
3,智能化驱动:这是未来核心,我们会找到更多的智能化应用场景,挖掘分析海量数据以指导管控能力。
4,全球数据库:怎么做全球访问,全球数据同步和一致性,把阿里沉淀的数据库技术产品化。
企业数据安全管理最佳实践
淘集集运维负责人 赵炎强
淘集集运维总监赵炎强在会议上分享了业务爆发式增长过程中,他们遇到的数据安全及数据库运维痛点。同时,赵炎强分享了如何借助阿里云数据管理DMS实现研发全自助及数据安全保障。
客如云智能餐饮SaaS服务中的DTS最佳实践
客如云运维总监 李浩
客如云运维总监李浩在会议中,为我们分享了客如云业务智能化转型过程中的架构痛点及最佳实践。为实现门店智能化、信息化,他们最先需要解决数百个数据库到数据仓库的数据实时集成。借助阿里云数据传输服务DTS,他们轻松实现数百个数据库到数据仓库的数据实时同步,基于数据仓库的实时分析能力,快速实现智能化业务发展。
同时,客如云借助DTS实现异地灾备及异地多活架构,实现数据库高可用,有效保障服务连续性。
VIPKID数据库跨云容灾架构深度解析
VIPKID高级数据库工程师 郝海民
VIPKID数据库专家郝海民给大家分享了VIPKID使用单家云厂商的高可用问题,及使用DTS构建AWS跟阿里云跨云厂商容灾的最佳实践。VIPKID通过跨云架构,可以在AWS出现故障时,将业务快速切换到阿里云,秒级恢复业务。同时,借助跨云容灾,可实现灰度验证及压力测试。