作者 | 中体彩公有云架构团队 高迪
云转型历程
中国体育彩票(简称“中体彩”)的IT系统为体育彩票事业贡献了基础的保障能力,大致经过了如下的三个阶段。
- 第一阶段虚拟化:2013年在对全国的四个区域数据中心进行集中后,为了提高IT资源的利用率,进行大批量的虚拟化建设,包括计算资源的虚拟化和存储环境的虚拟化。
- 第二阶段双模平台:完成了基础环境的虚拟化改造后,2017年基于开源如OpenStack云化技术栈和传统的虚拟化技术栈,参考Gartner机构的Bimodal IT发展模式建议,体彩在新数据中心的IT基础环境建设时实现了敏态和稳态环境双模平台。
- 第三阶段混合云:2021年对体彩云进行了新的定义,由私有云、公有云、统一云管平台、专用通道组成的混合云。配合新业务上线,除了在自有数据中心建设搭建云平台之外,充分利用阿里公有云平台提供的丰富能力。
上云的挑战
虽然中体彩在传统数据中心积累了丰富的经验,但是对于公共云还是比较陌生的。面对业务的复杂性、多团队的协同,如何确保上云的统一规划和建设,是中体彩云团队面临的挑战。因此从组织管理、技术诉求进行了分析。
组织管理和技术诉求
当业务需要部署在公有云上时,除了业务的基础要求,还有如下的组织管理诉求:
- 计划:在有限的时间下,按时上线过程的方向把控、问题的及时发现、预防和纠正;
- 组织结构要求:组织中不同团队的职责各级组织的职责体现、相互之间的协调机制;
- 合规安全要求:技术架构满足中体彩的安全管理与合规要求;
- 人员培养:规划设计团队在完成公有云的引入和设计后,还多支持后续的运维运营承接团队,简单的说,就是能把后续的队伍扶上马,送一程。
以上是新业务需要部署在公有云环境时,以管理诉求的直接需求的角度提出。如果把上述的原始需求转换成技术需求的语言,就是:
- 计划:业务上线时间倒排,确定工作模块的组成以及模块之间的依赖关系;
- 架构合理性:现有环境(迁移前技术栈)的评估,平滑迁移,最少的业务应用代码改动,迁移后架构是不是Best Practice;
- 合规安全要求:用户访问方式和权限的定义,云上网络内部之间的安全访问,VPC之间、实例之间等,网上网络对外出口的访问;
- 组织结构要求:业务需求方、数据中心运维方、管理方、架构设计方、安全合规等多方,可以在云上协同完成工作;
- 人员培养:提供基于公有云的知识库以及学习验证环境。
公有云与传统数据中心的异同
从技术实现的角度,在网络架构设计、安全防护和合规审计领域,公有云与传统数据中心的原理基本相同。但在如租户管理,财务管理(成本分摊)的模型和IT系统的组织模型领域存在较大区别,同时公有云和传统数据中心内都要进行身份权限定义、日常运维和开发自动化代码的工作。
基于Landing Zone框架的上云规划
为了解决上述的组织管理和技术的诉求,体彩在进行业务的公有云部署前,基于Landing Zone(登陆区)上云框架进行整体设计,确保构建一个安全合规、可管理和可扩展的阿里云环境。
账号组织架构和权限
基于阿里云的资源目录(Resource Directory)服务,实现云上的结构设计和实际的组织管理架构相匹配。其中,体育彩票管理中心为企业管理账号,在整体组织内具有最高权限,而下属的其它各类业务应用均为应用账号,确保了管理与应用的职责分离,各个应用账号也可以实现租户隔离。
而更细颗粒度的员工权限,通过云平台上的RAM(Resource Access Management)功能,进行租户内的标准用户权限的用户组定义,以实现基于角色为员工进行授权。
应用账号的费用额度,通过企业管理账号统一划拨,在初次申请时,计算该业务账号预计的年和季度费用,按季度划拨。在季度内,如果业务账号内的资源做了节省或其它原因,业务账号的管理员可以在额度范围内自行创建新的云资源,如果超出了划拨额度,需要进行新的申请。
共享服务租户与业务租户在具体功能上的区别
共享服务租户和业务租户,从云产品的功能本身来说,并没有使用权限上的区别,但是为了实现组织的集中化管理,从架构设计上,将一些共享功能的网络类和安全类产品,如共享带宽、NAT、防火墙和DDoS等,定义为只能在共享服务租户内创建,而一些面向业务的具体计算和存储类产品,如ECS、RDS和SLB等,则定义为创建在业务租户区。这样做的好处有:
首先,保证了边界防护的安全性可管理;
其次,因为这些资源的复用,可以降低整体成本;
再次,因为网络类和安全类产品的配置具有一定专业性,由一个独立的共享服务区配置,可以指定专人,保证配置的有效和合理性,也降低了业务应用开发人员的技术难度;
最后,在整个环境内,将生产环境和测试环境进行区分,保持一定的安全独立性。
网络架构
云上的网络架构,可以参考传统数据中心的设计模式,同时发挥公有云上产品种类多样,链接便利的特点。采用公有云上最彻底的隔离方式,基于租户的隔离,同时通过云企业网CEN,将允许的租户资源互联,并配置全局的旗舰版防护墙,保证南北向和东西向数据流量的安全。各个业务租户区的对外访问,如共享带宽、NAT映射,均由统一的共享租户进行配置,并设置统一的DDoS和WAF应用规则,整个网络内的对外安全标准统一。
对云上的资源需要与云下数据中心互联,采取的是专线接入方式,配合VBR边界路由,实现体彩自有数据中心与阿里云的互通。
安全防护体系
公有云上的安全,体彩在建设时,参考网络安全等保三级的要求,分别从网络层、主机系统层、环境与登录、以及日志审计的维度,建立整体的安全防护体系。
其中事前防护的如云防火墙等产品,采取资源目录中可信服务授权的方式,在企业管理账号中操作,将权限授予共享服务租户的管理员操作;事中防护的如配置审计功能,在企业管理账号内打开,配置收集下属各应用业务账号的资源列表,并将企业管理账号内统一的配置规则,下发到各应用业务账号内;事后的操作审计功能配置为默认开启,确保所有操作都可以被审计。
成本分摊规则
云上资源即开即用,虽然具有使用便利性的特点,但如何去衡量云上资源的使用是否合理,成本可见是最基础的。中体彩采取成本分摊的方式,将云上资源的每一项费用,都与具体业务相关联。具体来讲,就是将云上的每个产品成本,通过分摊计费的方式进行累加。
在成本分摊方面,因为对云上的租户分别定义了企业管理租户、共享服务租户和业务租户三种类型的租户,其中企业管理租户自己不创建资源,不承担成本,主要的成本发生在共享服务租户和业务租户两类租户上,我们定义了如下的规则:
1、业务租户的成本,由业务方独自承担;
2、共享租户区的成本,由各使用方按使用量分摊。
所以真正需要分摊的是共享租户区的成本。如前文所述,共享服务区的云产品类型主要以网络类和安全类产品为主,对这些产品采用何种分配方式,是我们主要讨论的内容,基本的分摊原则,制定公式如下:
将共享租户区内与租户1代表的业务相关的所有n个云产品分别计算分摊值,并求和。
具体到不同的云产品类型,我们也进行了分别的定义:
最终租户1代表的业务总成本,计算规则如下:
结语
中国体育彩票于1994年开始发行,当前主要包括乐透型彩票、竞猜型彩票和即开型彩票三大类别,其公益金被广泛用于补充全国社会保障基金、抗震救灾、教育助学、残疾人救助、扶贫、法律援助等多项社会公益事业,并通过支持“全民健身计划”等公益活动,在构建公共体育服务体系、助力健康中国战略、建设体育强国中发挥作用。
中体彩的云转型之旅,基于Landing Zone体系化方案,将上云的过程进行全方面的规划和设计,既满足企业业务对云资源的灵活配置要求,也满足从组织管理角度的安全和资源合理利用的要求,带来了收益:
- 统一管控:满足云上资源的统一管控需求,避免影子IT的存在;
- 安全防护:预先设计的体系化的安全防护,为各业务提供安全保障;
- 规模效应:云上规模增加的情况下共享资源、降低单位成本,从而实现规模效应;
- 扩展性:基于多账号架构可灵活地满足组织的增加和业务应用类型的增加。
这样一家服务中国市场将近30年的公司,坚持践行责任理念与合规运营,同时与时俱进,将彩票业务与公益理念,不断与数字化手段进行结合与升级,以承担更多社会责任。