四川农信云平台资源管理探索与实践-阿里云开发者社区

开发者社区> 程序猿v> 正文

四川农信云平台资源管理探索与实践

简介: 四川农信云平台资源管理探索与实践
+关注继续查看


近年来云计算技术发展迅猛,银行业为应对业务量增长和快速创新的挑战,逐步开展基于云平台的分布式架构转型。四川农信作为国家发展改革委等9 部门指定的第一批数字化转型伙伴行动倡议单位,全面实施智慧银行建设战略。在转型过程中,逐步推进基础架构由传统虚拟化向云平台过渡,于2020 年实现自有云平台「蜀信云」的成功投产,并配套运维理念和机制流程的转型,推动数据中心由传统的IT 成本中心向IT 服务中心、价值中心转变,提升IT 服务供给能力。本文基于四川农信在云平台资源管理过程中的模式探索与实践展开,对传统环境与云平台基础资源管理两种模式进行对比,希望为同业机构提供参考。

面临的挑战

近年来,随着开放平台虚拟化技术的发展,X86 服务器有了取代小型机乃至集中式存储的趋势,但基于传统虚拟化技术的基础平台仍然面临一些问题。

1. 设备选型标准不统一

X86 服务器竞品众多,配置灵活,缺乏适配标准,导致采购前需要花大量精力进行基于业务场景的资源测算,以评估机器配置与数量。

2. 部署分配效率低

传统虚拟化部署效率低,批量化部署配置复杂。部署规模受产品底层架构能力限制,单一集群数量往往在数十台左右, 难以形成大规模集群。同时,在存储和数据库虚拟化上仍存在显著的性能瓶颈,高并发、高I/O 场景仍然需要连接集中式存储并通过物理服务器承载的数据库。

3. 资源弹性伸缩自动化程度低

传统虚拟化无法实现资源的自动弹性伸缩,在应对“双十一”、春节等交易高峰时,需要提前预估并对业务系统依赖的硬件资源进行扩展。应用服务器、数据库服务器与负载均衡服务之间的联动扩展难以实现完全自动化,且高峰过后不便于回收,大部分时间因资源闲置而造成浪费。

4. 运维管理难度大

传统基础架构依赖大二层网络和VLAN 进行网络隔离,导致网络管理员和虚拟化管理员需要做大量协同配置,管理复杂。项目资源的生命周期管理由资源管理部门负责,项目组无法实现对资源的自主创建、自主管控、自主删除。资源管理部门疲于应付各个项目组的资源需求。

基于云平台架构的解决思路

云平台通过软件定义的方式更好地实现了计算、存储、网络、数据库等各类资源有效池化,真正实现了“资源共享,按需使用”。

1. 设备选型

X86 服务器选型方面,云平台带来的一体化解决方案以定制化的标准机型为主,以计算、存储、网络、数据库等产品大类形成设备的配置基线,产品大类下再根据具体用途形成更详细的规格,如存储类可按对象存储、文件存储、块存储做差异化的硬件配置。

2. 部署分配

云操作系统的安装部署过程遵循标准化、自动化原则,避免繁杂的手工配置导致部署出现的各类问题,同时显著提高了部署效率。

3. 资源弹性伸缩

云上资源“即开即用”,可定时或按需(如设置资源使用率阈值等方式)进行资源的自动伸缩,由此极大地提高了资源使用效率。

4. 运维管理

基础资源的分配实行“配额制”,各个项目团队(租户)在各自的配额内“自取自用”,自主管理资源的生命周期,将云平台运维人员从资源增删改查的重复劳动中解放出来。

云平台基础资源管理的落地实践

为了满足四川农信向分布式架构转型的需要,信息科技中心对比主流的分布式云平台产品进行了调研和测试,选择了有银行实施案例并经过大规模部署场景验证的原生云技术,构建涵盖IaaS、PaaS、DaaS、SaaS 多个层面,支持多活单元化部署,对包含分布式核心业务在内的143 个典型场景进行了技术验证,为蜀信云平台技术选型提供了充分的依据。

1. 设备选型

以云平台标准机型为主,不同规格的机型用于涵盖不同使用场景。根据我社需求的云平台组件范围,部署需要使用30种不同规格的机型,为了标准化管理与集中采购,我们要求云厂商对配置相近的机型规格进行整合,最终收敛为8 种标准服务器机型,用于我社专有云的部署。

为了在设备层面更加自主可控,避免由于贸易摩擦等不可抗因素造成部分国外芯片断供,进而导致设备无法正常生产供应,督促云厂商对国产芯片服务器进行兼容性测试验证,提供更多的可选择性。

2. 部署分配

(1)部署情况。四川农信“蜀信云” 一期建设使用近700 台X86 服务器,搭建了开发测试云和生产云两套独立的专有云平台。开发测试云由200 余台服务器组成,支撑各类智能项目的开发、测试、产品迭代;生产云由400 余台服务器组成,按同城站点级容灾要求,规划为两个可用区,分别部署在自建数据中心与租用机房。

同一可用区内,云服务(如虚拟机、对象存储、关系型数据库等)均遵循高可用原则,以集群方式部署,提供同一服务的多台服务器散布到不同的机柜中, 避免单机柜掉电造成服务不可用。随着未来新建数据中心的落成,四川农信将逐步演进为“三地四中心五节点”的异地容灾架构。

目前,智能渠道、智能决策、智能贷款、智能营销和开放银行等系统已经正式上云投产运行,影像平台、新金融工具准则等系统即将部署上云。

(2)资源隔离。为满足多法人业务架构下的业务运营需要,蜀信云通过云平台多租户能力,将省联社与行社区分为不同租户,采用多级“组织”结构以及“资源集” 的管理方式实现资源的分组与隔离。蜀信云中,一级组织为“省联社”,其下划分为“生产”“准生产”“开发”等二级组织。同一级组织下的不同二级组织通过VPC 实现网络隔离。在实现了生产与测试等环境的隔离之后,蜀信云还提供了 “资源集” 的隔离功能,为每一个上云项目创建唯一对应该项目组的资源集,以此实现同一环境下不同项目组间的资源隔离。

3. 弹性伸缩

云平台服务的伸缩主要体现在云上虚拟机的弹性伸缩和对象存储的弹性容量。以云服务器弹性伸缩为例,首先创建弹性伸缩组,将一部分云服务器加入到弹性伸缩组,统一对外提供服务;然后配置伸缩任务来实现实际业务中云服务器的弹性伸缩,横向扩缩容。伸缩任务的类型可以是定时任务或动态任务,当业务峰值的时间点较为固定或可较为准确地预测时,可以通过配置定时伸缩任务,在预期的时间自动执行伸缩组扩容;当业务的峰值时间点不太能准确预测时,可以通过配置动态任务或告警任务,当云服务器资源使用率达到一定阈值后,自动执行伸缩组扩容。同理,在使用率低于一定阈值时自动触发减少伸缩组中云服务器的数量,最大程度地提升资源使用效率。

4. 运维管理

(1)运维组织。相对于传统架构的运维管理,云平台的运维管理特征是需求数量大、频度高、实施周期短,呈现出敏捷、高效的互联网IT 运维特征。既需要满足传统银行业务稳定可靠的需求,又要满足互联网金融行业快捷灵活的特性。四川农信一方面从社会和校园招聘合适人员,另一方面从传统运维团队中抽调有经验的工程师,与厂商驻场服务支持人员组成运维团队,共同参与到云平台的建设、维护工作当中,不断学习汲取厂商的运维经验。逐步从观摩、咨询,到参与规划、讨论, 到实际上手制定变更计划、操作手册,制定运维规范,并持续提升自主运维能力。

(2) 资源管理。云平台资源通过CMDB 进行生命周期管理,及时掌握资源使用量和预估未来资源水位;项目资源以资源集分隔,在资源集维度进行配额管理, 实例规格受配额约束,避免资源分配虚高造成浪费。

5. 落地过程中需要重视的其他问题

首先,集中架构向分布式架构转型。分布式架构相对于集中式架构更注重应用系统部件的解耦,以服务无状态为设计原则,大量采用容器化部署的微服务架构实现敏捷开发。在集中式架构下技术栈相对单一,注重从业人员的技术深度,而在分布式架构下,技术栈激增,各种开源框架及流派,更要求从业人员的技术广度,由此带来转型过程中原有人员技术力不足的问题,需要大量的知识转移。同时由于技术迭代迅速,难以沉淀形成有效的知识库, 常常需要见招拆招。

其次,公有云向专有云输出。在运维平台建设方面,云服务商的原有框架侧重跨行业的通用性设计,与银行业既有运维模式存在一定适配性差异,因此还需要双方深入探讨,统筹构建,在多个层面充分调研运维管理需求,不断融合改进,以期实现更加精准、行业适配度更高的一体化运维管理平台。

展望

现阶段,我社云上业务系统正相继投产运营,云平台资源管理与传统业务的资源管理仍在不断磨合,管理模式和理念还需要适应、优化和改进。

云平台在资源快速供给、弹性伸缩、自动化智能化管理维护等方面,还有巨大的潜力有待开发。未来,我们将通过合理分配、资源整合进一步降低IT 成本,为构建三地四中心五节点的弹性容灾架构做好技术储备,进一步为全省提供更加便捷和普惠的金融服务。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
阿里云服务器怎么设置密码?怎么停机?怎么重启服务器?
如果在创建实例时没有设置密码,或者密码丢失,您可以在控制台上重新设置实例的登录密码。本文仅描述如何在 ECS 管理控制台上修改实例登录密码。
10076 0
使用NAT网关轻松为单台云服务器设置多个公网IP
在应用中,有时会遇到用户询问如何使单台云服务器具备多个公网IP的问题。 具体如何操作呢,有了NAT网关这个也不是难题。
26789 0
阿里云服务器端口号设置
阿里云服务器初级使用者可能面临的问题之一. 使用tomcat或者其他服务器软件设置端口号后,比如 一些不是默认的, mysql的 3306, mssql的1433,有时候打不开网页, 原因是没有在ecs安全组去设置这个端口号. 解决: 点击ecs下网络和安全下的安全组 在弹出的安全组中,如果没有就新建安全组,然后点击配置规则 最后如上图点击添加...或快速创建.   have fun!  将编程看作是一门艺术,而不单单是个技术。
10882 0
阿里云服务器安全组设置内网互通的方法
虽然0.0.0.0/0使用非常方便,但是发现很多同学使用它来做内网互通,这是有安全风险的,实例有可能会在经典网络被内网IP访问到。下面介绍一下四种安全的内网互联设置方法。 购买前请先:领取阿里云幸运券,有很多优惠,可到下文中领取。
11818 0
腾讯云服务器 设置ngxin + fastdfs +tomcat 开机自启动
在tomcat中新建一个可以启动的 .sh 脚本文件 /usr/local/tomcat7/bin/ export JAVA_HOME=/usr/local/java/jdk7 export PATH=$JAVA_HOME/bin/:$PATH export CLASSPATH=.
4659 0
阿里云ECS云服务器初始化设置教程方法
阿里云ECS云服务器初始化是指将云服务器系统恢复到最初状态的过程,阿里云的服务器初始化是通过更换系统盘来实现的,是免费的,阿里云百科网分享服务器初始化教程: 服务器初始化教程方法 本文的服务器初始化是指将ECS云服务器系统恢复到最初状态,服务器中的数据也会被清空,所以初始化之前一定要先备份好。
7365 0
阿里云服务器如何登录?阿里云服务器的三种登录方法
购买阿里云ECS云服务器后如何登录?场景不同,云吞铺子总结大概有三种登录方式: 登录到ECS云服务器控制台 在ECS云服务器控制台用户可以更改密码、更换系统盘、创建快照、配置安全组等操作如何登录ECS云服务器控制台? 1、先登录到阿里云ECS服务器控制台 2、点击顶部的“控制台” 3、通过左侧栏,切换到“云服务器ECS”即可,如下图所示 通过ECS控制台的远程连接来登录到云服务器 阿里云ECS云服务器自带远程连接功能,使用该功能可以登录到云服务器,简单且方便,如下图:点击“远程连接”,第一次连接会自动生成6位数字密码,输入密码即可登录到云服务器上。
22399 0
+关注
1569
文章
0
问答
来源圈子
更多
直面挑战,勇探新路,是金融行业的必然选择。在新市场、新业态、新格局之下,"转型"、"创新"便成了突破改革发展困境的关键词,“云上创新”成为金融机构高质量发展的必然选择。云金融思享汇集结金融行业基于云计算、区块链计算的应用与探索的动态资讯及最佳实践,第一时间了解阿里云金融动态、最新观点。
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载