历经6年双十一,无任何生产故障,数据管理DMS服务平台诠释DevOps在企业级数据库的最佳实践

简介: 摘要:阿里巴巴解决方案架构师胡中泉(舟济)在2018云栖大会上海峰会企业研发云专场中做了题为《历经6年双十一,无任何生产故障,数据管理DMS服务平台诠释DevOps在企业级数据库的最佳实践》 的分享,首先就云上数据库DevOps实施痛点做了详细的概述,其次阐述了产品化解决方案的方法,最后对落地最佳实践的内容作了深入的分析。

摘要:阿里巴巴解决方案架构师胡中泉(舟济)在2018云栖大会上海峰会企业研发云专场中做了题为《历经6年双十一,无任何生产故障,数据管理DMS服务平台诠释DevOps在企业级数据库的最佳实践》 的分享,首先就云上数据库DevOps实施痛点做了详细的概述,其次阐述了产品化解决方案的方法,最后对落地最佳实践的内容作了深入的分析。
数十款阿里云产品限时折扣中,赶快点击这里,领券开始云上实践吧
精彩视频回顾请点击
ppt下载请点击
以下为精彩视频内容整理:

云上数据库DevOps实施痛点

首先介绍研发高频迭代,可能对于一些还没进行云化或云化处于初级阶段的企业,会非常不理解为什么企业上了云之后研发迭代效率就变高了,原因是云上IT的基础设施部署和实施成本大幅度降低导致的,降低之后会导致研发人员不受底层的成本和容量的限制,从而会把更多的精力投入到代码的逻辑实现以及代码业务架构的优化这一层面。
从数据的角度说业务会彻底实践我们的微服务化,也就是业务维度细分的越来越多,但每个细分的业务维度都会有自己的数据库,当数据库业务进行并发迭代时,给数据库的off层带来的压力是巨大的,67%受访企业表示上云后应用版本迭代周期大幅度缩短;其次是数据资源共享,介绍数据资源共享时引入一个数据资产的概念,我们都知道企业的每一笔资产都需要有一个保证资产不被乱用的责任人,落在数据库上也是一样的,我们的每一个数据库甚至每一个记录,都需要有一个责任人,研发高频迭代会导致数据业务维度大幅度增加,之后会导致数据耦合度增加,耦合度增加后责任边界会越来越模糊,于是企业会走向两个极端,93%的云上数据库运行在多租户环境中;最后是容量的弹性伸缩,云上IT资源的低成本很大程度上受益于云上资源,可通过容量弹性收缩来实现,在阿里2017年的双11,我们国内的交易单元在尖峰时就用了云资源进行尖锋和扩容,在尖峰之后将扩容资源归还云端,但是在实际操作过程中,究竟我们要怎么做才能在我们需要的时候资源能上到云端,不需要时能顺利地下去。
痛点过去之后我们要归纳痛点并提炼需求,高频研发迭代从本质上是要解决量的问题,要解决量的问题的思路是规模化部署、规模化语言及规模化操作,然而规模化的前提是标准化,但是标准化不能解决DevOps敏捷的特点,解决共享的思路是对数据进行隔离,对数据的隔离也是有许多方法的;解决容器的弹性伸缩的本质是资源规格的大小乘以资源占用的时间,怎样能使云上资源占用时间最短,要保证有一个快速部署业务需求的前提下,使IT资产部署成本最小化,云上资源核算方式是资源规格大小的能力。分层管控分为DMS数据管理层和HDM混合云数据库管理层,DMS数据管理层可以轻松构建企业独有的数据库DevOps,促进了数据库研发自助化并提升了研发效率;HDM混合云数据库管理层提供了多环境统一管理、快速弹性、容灾切换的能力。

DevOps产品化解决方案

0bddedd6ec52e78b3d8e5759d8c86dc

上图为数据库DevOps解决方案功能矩阵的示意图。从上向下看,数据操作入口从技术角度讲是实施管控的先决条件,从业务方面收敛了研发人员访问数据库的权限,当权限收敛完成之后会在底层数据库回收个人非法的帐号,底层数据帐号权限的回收永远是数据安全保障的必要条件,中间的三个大框里的安全保障、效率提升及性能分析是DMS进行所有的功能都需要遵循的三大原则,在最下面可以看到HDM,HDM具有弹性迁移的功能。
在过去的九年中在DevOps领域中也积累了相当丰富的经验,我们已经将一部分经验沉淀到集成产品化,阿里也希望通过专家咨询赋能的方式协助大家解决一些问题。

DevOps落地的最佳实践

在保证数据和数据库安全的前提下尽可能提升研发效率,是数据库层DevOps的最佳实践方式,对于DMS、HDM两种产品而言,它们的职责是给出安全和效率尽可能功能多的选项,解决架构工程师的职责是把产品给出的每个选项根据企业的需求赋一个最优值,从而达到企业中安全和效率的平衡点。

428b9374d958bb0028a6da4438f8abc

上图是用户通过DMS进行数据操作的基础流程图,数据操作包括查询、订正和导出。从图中可以看出一个用户通过SQL进入DMS基础权限隔离体系,第一层要进行网络访问隔离、第二层是库表权限隔离、第三层是字段敏感隔离、第四层操作权限隔离。DMS同时还涉及增强权限隔离及安全访问体系,DMS会根据设定每日查询记录限制和单笔查询记录限制,当这两种检查通过时,为了保证数据库的安全,DMS会根据预定的规则检查查询时间。

5b1d8b5c790877886c340719e07878e

上图为DMS后置性能分析架构图。计算层通过全量SQL分析,可以对数据库的性能和存储容量做一个相对精准的趋势预测,计算平台发现问题主要通过专家经验进行诊断优化实现产品化,以及通过机器的学习进行快速的模型训练自动发现并处理线上问题。

742bdfd235456054fdf23e2d0b34783

上图是HCM数据库尖峰扩容解决方案示意图。中间的类似于云的标志是DTS,它是一种与数据类型基本无关的并行高速复制符,它将本地的ID数据进行评估后传到云上,并通过双向复制保障保持云上云下数据多活,HDM的自建对云上和云下的资源进行统一的管理,这就是基于HDM弹性容量的整体架构。

解决方案的回顾和最佳的实践方式

DMS帮助我们控制员工的数据访问安全;DMS还将数据库的研发流程进行产品化,帮助您打造快速上线的能力;DMS后置性的整合模块帮助数据库持续整合优化;HDM实现了弹性扩容。数据管理DMS企业是基于阿里集团内自研数据库服务平台IDB近十年的积累上云,IDB服务于集团内每周数万人员的数据库管理诉求,沉淀了阿里DBA核心的数据库规范管理经验,旨在提供研发安全、高效的全自助数据库服务平台。
目前,DMS集团版本-IDB已经累计管理阿里巴巴集团、蚂蚁金服、菜鸟网络、盒马鲜生等各个事业群,超过30000数据库实例的日常变更操作,历经6年双十一,无任何生产故障。同时DMS国际版也在不断积累如AliExpress、LAZADA为代表的海外用户。DMS分为个人版、企业版、个移动版、企业移动版。受到云上众多行业用户的认可,涉及政务、税务、公安、航空、金融证券、医疗、电商、游戏、娱乐等服务开发者累计超过10000名,并有丰富的社区资源用户量仍保持高速增长趋势。

相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
相关文章
|
SQL 关系型数据库 数据库
【YashanDB知识库】OM仲裁节点故障后手工切换方案和yasom仲裁重新部署后重新纳管数据库集群方案
本文介绍了主备数据库集群的部署、OM仲裁故障切换及重新纳管的全过程。首先通过解压软件包并调整安装参数完成数据库集群部署,接着说明了在OM仲裁故障时的手动切换方案,包括关闭自动切换开关、登录备节点执行切换命令。最后详细描述了搭建新的yasom仲裁节点以重新纳管数据库集群的步骤,如生成配置文件、初始化进程、执行托管命令等,确保新旧系统无缝衔接,保障数据服务稳定性。
|
人工智能 Cloud Native 多模数据库
实力见证!数据管理服务DMS、云原生多模数据库Lindorm荣获“2024技术卓越奖”
实力见证!数据管理服务DMS、云原生多模数据库Lindorm荣获“2024技术卓越奖”
335 1
|
数据管理 关系型数据库 MySQL
数据管理服务DMS支持MySQL数据库的无锁结构变更
本文介绍了使用Sysbench准备2000万数据并进行全表字段更新的操作。通过DMS的无锁变更功能,可在不锁定表的情况下完成结构修改,避免了传统方法中可能产生的锁等待问题。具体步骤包括:准备数据、提交审批、执行变更及检查表结构,确保变更过程高效且不影响业务运行。
1563 2
|
存储 Oracle 关系型数据库
数据库数据恢复—ORACLE常见故障的数据恢复方案
Oracle数据库常见故障表现: 1、ORACLE数据库无法启动或无法正常工作。 2、ORACLE ASM存储破坏。 3、ORACLE数据文件丢失。 4、ORACLE数据文件部分损坏。 5、ORACLE DUMP文件损坏。
565 11
|
SQL 关系型数据库 数据库
【YashanDB 知识库】OM 仲裁节点故障后手工切换方案和 yasom 仲裁重新部署后重新纳管数据库集群方案
本文介绍了一主一备数据库集群的部署步骤。首先在OM节点上传并解压软件包至指定路径,随后通过调整安装参数、执行安装和集群部署完成数据库设置。接着,在主备节点分别配置环境变量,并查看数据库状态以确认安装成功。最后,针对OM仲裁故障提供了手动切换方案,包括构造故障场景、关闭自动切换开关及使用SQL命令进行主备切换,确保系统高可用性。
|
存储 Oracle 关系型数据库
数据库数据恢复—Oracle ASM磁盘组故障数据恢复案例
Oracle数据库数据恢复环境&故障: Oracle ASM磁盘组由4块磁盘组成。Oracle ASM磁盘组掉线 ,ASM实例不能mount。 Oracle数据库故障分析&恢复方案: 数据库数据恢复工程师对组成ASM磁盘组的磁盘进行分析。对ASM元数据进行分析发现ASM存储元数据损坏,导致磁盘组无法挂载。
|
存储 数据挖掘 数据库
服务器数据恢复—raid磁盘故障导致数据库数据损坏的数据恢复案例
存储中有一组由3块SAS硬盘组建的raid。上层win server操作系统层面划分了3个分区,数据库存放在D分区,备份存放在E分区。 RAID中一块硬盘的指示灯亮红色,D分区无法识别;E分区可识别,但是拷贝文件报错。管理员重启服务器,导致离线的硬盘上线开始同步数据,同步还没有完成就直接强制关机了,之后就没有动过服务器。
|
运维 Devops 持续交付
DevOps实践之路:从理论到企业级应用
在数字化浪潮中,DevOps作为一种提升软件开发和运维效率的方法论,正被越来越多的企业采纳。本文通过探讨DevOps的核心理念、关键实践以及在不同规模企业中的应用案例,旨在为读者提供一条清晰的DevOps实践之路。无论你是初涉这一领域的新手,还是寻求进阶的资深人士,这篇文章都将为你打开一扇洞悉DevOps精髓的大门。
387 15
|
运维 监控 安全
构建高效自动化运维系统:DevOps在企业级应用的实现路径
【7月更文挑战第54天】在当今IT领域,DevOps作为一种文化和实践,旨在弥合开发与运维之间的鸿沟,以实现更快速、更可靠的产品交付。本文将深入探讨在企业环境中如何构建一个高效的自动化运维系统,不仅涵盖理论框架,还包括具体实施步骤和最佳实践。通过持续集成(CI)、持续部署(CD)、基础设施即代码(IaC)等关键概念的融合运用,文章旨在为读者提供一个清晰的指导,以便在其组织中落实DevOps策略,并实现运维效率的显著提升。
|
存储 Oracle 安全
服务器数据恢复—Raid故障导致数据库数据丢失的数据恢复案例
一台光纤存储中有一组由16块硬盘组成的raid。 该存储出现故障导致数据丢失。RAID中2块盘掉线,还有1块盘smart状态为“警告”。

热门文章

最新文章

下一篇
开通oss服务