如何设计大型项目技术运营服务架构

本文涉及的产品
无影云电脑个人版,1个月黄金款+200核时
资源编排,不限时长
无影云电脑企业版,4核8GB 120小时 1个月
简介: 【2月更文挑战第3天】如何设计大型项目技术运营服务架构

一、背景

技术运营是“建设运营一体化模式”大型项目必不可少的保障机制,其包括系统巡检、稳定性保障、数据库管理、信息安全管理以及网络云架构管理等内容。需要成立运行维护机构,建立规范化、标准化、制度化的运行维护体系,制定和监督执行系统运行制度和标准。相关维护遵循信息技术服务标准(ITSS),从项目人员培训及考核、运营工具等资源和技术的利用、安全及时间过程管理等方面制定相应的制度,支持大型项目系统的安全、稳定、高效、持续运行。

二、总体运行流程

image.png

大型项目运营服务工作主要围绕平台本身、建设单位及平台用户,以业务运营服务人员为主要服务工作主要轴心,响应建设单位及平台用户发起的需求及问题,并通过迭代需求及工单分发与功能迭代服务人员及技术运营服务人员进行联动,针对重大活动及重要时期保障服务,业务运营服务人员提供相应业务保障,技术运营服务人员提供相应技术保障,完成各次重保服务专项保障工作。

三、总体技术架构

image.png

其中提供的服务场景主要包括:

  • 稳定性保障场景
    • 帮助项目建立容灾能力,当灾难发生时,在保证生产环境的数据尽量少丢失的情况下,保证生产系统的业务不间断运行,促进故障逃逸能力的提升。
    • 根据项目的业务需求,从资产和应用架构的角度进行巡检,主动发现潜在风险,提供优化方案建议。
    • 根据项目的业务需求,使用容量评估帮助项目找到系统的最大压力点,并进行降级、限流保护,帮助项目达到系统容量和资源成本的最佳平衡点。
  • 安全威胁检测场景
    • 技术运营团队对安全事件进行识别,对可能存在威胁的告警信息进行核查、处理,在未造成信息泄露等重大损失之前,及时对潜在威胁进行处理,对服务安全进行升级加固,从而保护项目系统安全、保障服务稳定运行。
  • 业务高峰护航服务
    • 技术运营团队为项目提供量身定制的护航服务,帮助项目平稳度过业务高峰。

四、系统巡检服务

image.png

(一)资产管理服务

1、资源信息动态梳理

满足日常基础资源管理场景,提供包含不限于框架结构、虚机、IP(公网、内网)、应用组件、中间件、数据库、安全服务等基础资源信息维护等工作,合并输出“资产清单“。

2、应用信息采集和更新

满足日常应用配置管理场景,实现定期采集主机账号、监听端口、运行进程信息、数据库账号信息、业务系统接口调用信息等资产,合并输出“资产清单“。

3、资源生命周期管理

提供资源生命周期管理,包括:申请、下发、测试、上线、运行中、闲置等状态管理。

4、资产信息统计分析

满足日常资产统计分析场景,提供资产分类统计、资产状态分类统计、资产总量统计等能力,按季度输出“资产分析报告”。

(二)每日巡检服务

1、系统巡检

提供 7*24 小时的系统巡检服务,包含针对平台的服务运行状态、操作系统运行情况、云服务器续费情况检查,保障系统安全、稳定运行,每小时合并输出“巡检播报",每日合并输出“系统运行日报”。

2、接口拨测

提供7*24小时的接口拨测服务,包含针对平台的核心业务接口拨测,保障系统安全、稳定运行,每小时合并输出“巡检播报",每日合并输出“系统运行日报”。

3、业务巡检

提供 7*24 小时的业务巡检服务,包含针对平台的核心服务、站点、QPS监控、数据等巡检,保障系统安全、稳定运行,每小时合并输出“巡检播报",每日合并输出“系统运行日报”。

4、资源监控

提供 7*24 小时的业务巡检服务,包含针对平台生产环境的所有主机CPU资源、内存使用、磁盘使用、网络端口流量、IO读写情况、系统负载等方面,保障系统安全、稳定运行,每小时合并输出“巡检播报",每日合并输出“系统运行日报”。

5、日志分析

提供 7*24 小时的业务巡检服务,包含针对平台生产环境的核心链路日志、站点应用日志、数据共享应用日志等内容,保障系统安全、稳定运行,每小时合并输出“巡检播报",每日合并输出“系统运行日报”。

6、数据备份情况

每日提供的数据备份情况检查服务,包含针对平台实时库、缓存库、搜索库、历史库等方面,保障系统安全、稳定运行,每日合并输出“系统运行日报”。

(三)日常版本更新服务

1、新版本上线及维护

满足平台日常版本迭代功能开发场景,提供对系统新版本上线及维护等服务,包括不限于系统维护和修改、配置文件维护、应用版本备份、程序更新等操作,及时反馈“上线工单”。

2、新版本健康状态检查与分析

满足平台新版本上线场景,提供核心业务功能巡检、核心接口回归测试、数据共享功能验证、资源水位监测等工作,保障系统安全,稳定运行,输出“新版本上线巡检报告“。

(四)应急事件报警

1、稳定性故障报警

满足平台全年可用性99% 的目标,提供7*24小时稳定性故障响应和跟踪,巡检发现问题的实时反馈并跟踪处理,输出“故障报警单”。

2、信息安全事件报警

满足平台全年常态化安全的目标,提供7*24小时信息安全事件响应和跟踪,巡检发现问题的实时反馈并跟踪处理,输出“安全事件报警单”。

四、稳定性保障服务

image.png

(一)故障预防服务

1、部署架构设计评估

满足平台全年可用性99% 的目标,单次故障时间不超过 6 小时,保证平台持续7*24小时不间断工作,在平台扩缩容场景下做好部署架构设计评估,重点考查高性能、高可用、安全设计,降低故障发生率,输出“架构评估报告”。

2、容量规划

满足平台针对云上架构资源精准评估场景,从稳定性、成本的维度评测,达到系统容量和云上资源成本的最佳平衡点,通过容量测试来决定单位容量的负载能力,同时确定实际业务增长需求,并且获取项目的运营预算,然后集成其他的考虑因素(包括时间、地域、灾难恢复等),做出合理的规划和决策,根据决策结果,进行容量规划,每半年输出“容量规划报告”。

3、服务治理

满足平台整体容灾能力,针对平台分布式服务架构常见的故障模式,提供可靠运行的系统保障措施,包括不限于服务限流、负载均衡管理、重试等内容,保证生产系统的业务不间断运行,输出“服务治理方案”。

4、故障模拟

满足平台整体容灾能力,针对平台分布式服务架构常见的故障模式,引入混沌工程故障模拟机制,每季度组织故障演练做到故障预防,降低故障发生率,促进故障逃逸能力的提升,输出“故障模拟方案”。

(二)故障发现服务

1、全局监控

满足平台主动发现潜在风险能力,通过全局监控系统实时监测本系统所有云主机、操作系统、应用、中间件等运行情况,全面获取生产环境中各层面技术系统的运行指标数据,及时发现异常,并为技术运营决策提供数据依据。

2、事件告警

满足平台主动发现潜在风险能力,通过重要监控指标设置报警规则,并在监控数据满足报警规则时发送告警通知,在第一时间得知指标异常,并迅速处理故障,做出对故障的精准的响应。

3、日志分析

全面获取应用和系统的各类日志数据,提供便捷的日志访问渠道,提高问题分析效率。

4、链路跟踪

完善核心链路跟踪能力,提升平台业务链路的可观测性,提高故障处理效率。

(三)故障处置服务

1、应急处置

应对平台故障突发且高压的场景,对外负责对接业务部门同步信息,同时屏蔽各方对技术团队和告警处理人员的干扰,有效组织技术团队的集中和协作:确定告警影响面及等级、组织应急小组、信息通报等。

2、根因定位

按季度根据历史经验是对系统架构的梳理,对问题的梳理,对查找和解决故障过程进行梳理,对分析问题思路的进行梳理,对不同时间序列问题数据的做相关性分析,理解各个指标的关系,同时进行证据链查找,根据数据的变化来推断得出各种结论,输出“常见故障分析决策树”。

(四)故障改进服务

1、故障复盘

满足平台稳定性建设需求,针对平台线上故障及模拟故障进行定期故障复盘,回顾故障历程、解读故障始末,识别问题,分析故障根因,制定改进措施和计划,提高系统可用性,每季度输出“故障复盘总结报告”。

2、全链路压测

针对平台每半年组织基于实际的生产业务场景和系统环境,模拟海量的用户请求和数据,对整个业务链路进行各种场景的全链路压测验证,持续发现性能瓶颈,输出“全链路压测报告”。

3、性能分析及优化

针对平台定期全链路压测找到的性能瓶颈,做好性能优化和可用性改进,压实落地改进措施,提高系统可用性,每半年输出“性能及优化报告”。

五、数据库管理服务

image.png

(一)数据库版本升级服务

1、日常技术支持

满足数据库日常运营场景,针对平台的关系库、缓存库、分析库、历史库等提供日常技术支持和故障处理工作,及时反馈“支持工单”。

2、数据库版本升级

满足数据库常态化安全需求,针对平台的关系库、缓存库、分析库、历史库等提供新版本及补丁升级工作,输出“数据库版本升级方案”。

(二)数据库配置管理服务

1、数据库集群管理

满足数据库服务器日常运营场景,针对平台的关系库、缓存库、分析库、历史库等集群及服务提供数据库集群的配置管理工作。

(三)数据库安全管理服务

1、权限分配

满足数据库常态化安全合规要求,针对平台的关系数据库、缓存库、分析库、历史库等集群,做到权限最小化分配,保证数据的安全性,确保不会出现因不安全、不规范或恶意操作,导致数据丢失或损坏。

2、漏洞修复

满足数据库常态化安全合规要求,针对平台的关系数据库、缓存库、分析库、历史库等集群,做到及时修复中高危漏洞,保证数据的安全性,确保不会出现因漏洞被利用,导致数据泄露。

3、访问安全

满足数据库常态化安全合规要求,针对平台的关系数据库、缓存库、分析库、历史库等集群,定期对访问连接进行梳理,保证数据的安全性,确保不会出现因不安全、不规范或恶意连接,导致数据丢失或损坏。

4、日志审计

满足数据库常态化安全合规要求,针对平台的关系数据库、缓存库、分析库、历史库等集群,定期对数据库日志审计、对数据库审计服务进行核查,保证数据的安全性,确保不会出现因不安全、不规范或恶意操作,导致数据丢失或损坏。

5、数据销毁

满足数据库常态化安全合规要求,针对平台的关系数据库、缓存库、分析库、历史库等集群,定期做过期数据安全删除,保证数据的安全性,确保不会出现因不安全、不规范或恶意操作,导致数据泄露,输出“数据销毁报告”。

(四)数据库容灾管理服务

1、数据备份

需提供完善健全的数据存储和容灾机制,提供数据全备及增量备份方案,定期对备份文件进行完整性和准确性校验,确保数据不丢失、不损坏,输出“数据备份方案”。

(五)数据库性能管理服务

1、定期数据库性能分析

保障数据库高效、稳定运行,按季度组织针对平台的关系数据库、缓存库、分析库、历史库等集群分析SQL行为、数据库参数分析、资源使用分析、数据库对象分析等工作。

2、数据库性能分析及优化报告

保障数据库高效、稳定运行,按季度针对平台的关系数据库、缓存库、分析库、历史库等集群输出“数据库性能优化报告”。

3、数据库使用培训

赋能数据库技术使用,按季度组织培训数据库性能优化的概念,输出“数据库培训材料”。

(六)容量管理服务

1、数据库服务器清理

数据库的存储设计应保证业务在可预见的运行时间里,有足够的存储空间,即使因客观因素导致不能做到存储空间的一步到位,也要确保有数据清理策略,保证业务不会因为数据存储瓶颈出故障,输出完整“数据库服务器清理方案”。

(七)数据模型评估

1、数据架构设计评估

满足日常功能迭代开发场景,数据库的开发工作尤为重要,定期提供数据架构设计评估,重点考查数据标准、数据质量、数据管理等方面,输出“数据架构评估报告”。

2、逻辑和物理模型设计

满足日常数据运营和功能迭代开发场景,提供表、索引、分布式数据库架构设计等技术支持工作。

(八)系统健康检查服务

1、全面体检

满足数据库常态健康运行,按季度定期组织对数据库系统全面体检工作,降低系统潜在的风险,包括数据丢失、安全漏洞、系统崩溃、性能降低及资源紧张等方面,输出“数据库全面体检报告”。

六、信息安全管理

image.png

(一)安全生产管理服务

1、安全需求评审

满足平台日常迭代开发场景,提供安全合规的环境,针对系统研发安全需求进行评审,输出“安全需求评审意见”。

2、代码安全审计

满足平台日常迭代开发场景,提供安全合规的环境,针对系统研发代码进行审计,输出“代码扫描报告”。

3、漏洞扫描

满足平台日常迭代开发场景,提供安全合规的环境,应对系统新版本上线进行漏洞扫描,输出“漏洞扫描报告”。

4、安全基线测试

满足平台日常迭代开发场景,提供安全合规的环境,应对系统新版本上线进行安全基线测试,输出“安全基线测试报告”。

5、渗透测试

满足平台日常迭代开发场景,提供安全合规的环境,应对系统新版本上线进行渗透测试,输出“渗透测试报告”。

(二)风险评估和自查

1、定期安全检测

满足等保合规常态化安全场景,按季组织进行安全检测自查,提供对平台进行人工安全巡检、安全扫描、日志分析、代码安全审计、安全基线检测、数据安全审计等工作。

2、安全评估报告编制

按季组织进行安全检测自查,明确平台安全现状,输出“安全检查评估报告”。

(三)安全加固服务

1、安全问题修复

根据定期安全检测发现有关安全问题,开展安全问题修复工作。

(四)信息安全事件管理

1、威胁情报管理

建立有效的安全情报网,通过各渠道收集情报,包括不限于同行业、厂商、国家漏洞库等收集情报,形成情报甄别,情报利用机制,高效快速抵御攻击,输出“安全情报清单”。

2、漏洞台账管理

满足日常漏洞管理场景,定期评估与归档漏洞修复工作,建立“漏洞台账”,促进漏洞修复知识共享,让漏洞修复有规可循,从漏洞发现到确认修复,做到漏洞全生命周期闭环管理。

3、应急响应服务

满足安全事件应急支撑,最短时间内采取技术手段遏制攻击、防止蔓延,事件处置应合网络、数据库、主机、应急和安全等多个岗位人员协同处置,输出“应急响应记录”。

七、网络云架构管理

image.png

(一)架构评估服务

1、网络架构评估

在平台出现扩缩容的时候提供网络架构评估服务,重点考查高性能、高可用、安全设计,输出“网络架构评估报告”。

2、环境评估

满足日常迭代开发场景,提供生产、测试环境等网络环境使用情况评估,输出“环境评估报告”。

(二)配置管理服务

1、网络策略申请及维护

满足平台日常网络保障场景,提供日常技术支持,包括不限于云网络策略配置、网络资产维护、网络故障处理等工作,输出“网络策略申请单”,维护“资产清单”,并反馈“故障工单”。

(三)网络安全监测服务

1、定期访问策略梳理

满足常态化网络安全需求,按月组织对网络访问策略梳理,降低网络安全风险,合并输出“网络策略清单”。

2、定期流量日志审计

满足常态化网络安全需求,按月组织对流量日志审计,降低网络安全风险,合并输出“网络行为分析报告”。

3、定期安全服务日志审计

满足常态化网络安全需求,按月组织对安全服务日志审计,降低网络安全风险,合并输出“网络行为分析报告”。

(四)网络性能管理

1、网络性能测试

满足网络高质量需求,按季度组织对混合云网络进行性能基准测试,找到网络瓶颈,最大程度减少云网络故障隐患,输出“网络性能测试报告”。

2、网络性能分析及优化

满足网络高质量需求,按季度针对发现网络瓶颈机进行分析及优化,最大程度减少云网络故障隐患,更高效的进行云网络管理,提高网络的运行性能和质量,输出“网络性能分析及优化报告”。

(五)网络性能管理

1、网络带宽成本核算和控制

提供网络容量管理服务,支撑公有云网络带宽成本核算和控制,降低运营成本。

八、成果和交付物清单

image.png

目录
相关文章
|
5天前
|
运维 Kubernetes Cloud Native
云原生技术:容器化与微服务架构的完美结合
【10月更文挑战第37天】在数字化转型的浪潮中,云原生技术以其灵活性和高效性成为企业的新宠。本文将深入探讨云原生的核心概念,包括容器化技术和微服务架构,以及它们如何共同推动现代应用的发展。我们将通过实际代码示例,展示如何在Kubernetes集群上部署一个简单的微服务,揭示云原生技术的强大能力和未来潜力。
|
3天前
|
存储 分布式计算 关系型数据库
架构/技术框架调研
本文介绍了微服务间事务处理、调用、大数据处理、分库分表、大文本存储及数据缓存的最优解决方案。重点讨论了Seata、Dubbo、Hadoop生态系统、MyCat、ShardingSphere、对象存储服务和Redis等技术,提供了详细的原理、应用场景和优缺点分析。
|
5天前
|
监控 API 微服务
后端技术演进:从单体架构到微服务的转变
随着互联网应用的快速增长和用户需求的不断演化,传统单体架构已难以满足现代软件开发的需求。本文深入探讨了后端技术在面对复杂系统挑战时的演进路径,重点分析了从单体架构向微服务架构转变的过程、原因及优势。通过对比分析,揭示了微服务架构如何提高系统的可扩展性、灵活性和维护效率,同时指出了实施微服务时面临的挑战和最佳实践。
23 7
|
3天前
|
传感器 算法 物联网
智能停车解决方案之停车场室内导航系统(二):核心技术与系统架构构建
随着城市化进程的加速,停车难问题日益凸显。本文深入剖析智能停车系统的关键技术,包括停车场电子地图编辑绘制、物联网与传感器技术、大数据与云计算的应用、定位技术及车辆导航路径规划,为读者提供全面的技术解决方案。系统架构分为应用层、业务层、数据层和运行环境,涵盖停车场室内导航、车位占用检测、动态更新、精准导航和路径规划等方面。
26 4
|
4天前
|
Kubernetes Cloud Native 持续交付
云原生技术在现代应用架构中的实践与思考
【10月更文挑战第38天】随着云计算的不断成熟和演进,云原生(Cloud-Native)已成为推动企业数字化转型的重要力量。本文从云原生的基本概念出发,深入探讨了其在现代应用架构中的实际应用,并结合代码示例,展示了云原生技术如何优化资源管理、提升系统弹性和加速开发流程。通过分析云原生的优势与面临的挑战,本文旨在为读者提供一份云原生转型的指南和启示。
18 3
|
6天前
|
网络协议 数据挖掘 5G
适用于金融和交易应用的低延迟网络:技术、架构与应用
适用于金融和交易应用的低延迟网络:技术、架构与应用
31 5
|
4天前
|
运维 Kubernetes Cloud Native
云原生技术在现代应用架构中的实践与挑战####
本文深入探讨了云原生技术的核心概念、关键技术组件及其在实际项目中的应用案例,分析了企业在向云原生转型过程中面临的主要挑战及应对策略。不同于传统摘要的概述性质,本摘要强调通过具体实例揭示云原生技术如何促进应用的灵活性、可扩展性和高效运维,同时指出实践中需注意的技术债务、安全合规等问题,为读者提供一幅云原生技术实践的全景视图。 ####
|
5天前
|
缓存 负载均衡 JavaScript
探索微服务架构下的API网关模式
【10月更文挑战第37天】在微服务架构的海洋中,API网关犹如一座灯塔,指引着服务的航向。它不仅是客户端请求的集散地,更是后端微服务的守门人。本文将深入探讨API网关的设计哲学、核心功能以及它在微服务生态中扮演的角色,同时通过实际代码示例,揭示如何实现一个高效、可靠的API网关。
|
3天前
|
Cloud Native 安全 数据安全/隐私保护
云原生架构下的微服务治理与挑战####
随着云计算技术的飞速发展,云原生架构以其高效、灵活、可扩展的特性成为现代企业IT架构的首选。本文聚焦于云原生环境下的微服务治理问题,探讨其在促进业务敏捷性的同时所面临的挑战及应对策略。通过分析微服务拆分、服务间通信、故障隔离与恢复等关键环节,本文旨在为读者提供一个关于如何在云原生环境中有效实施微服务治理的全面视角,助力企业在数字化转型的道路上稳健前行。 ####
|
4天前
|
Dubbo Java 应用服务中间件
服务架构的演进:从单体到微服务的探索之旅
随着企业业务的不断拓展和复杂度的提升,对软件系统架构的要求也日益严苛。传统的架构模式在应对现代业务场景时逐渐暴露出诸多局限性,于是服务架构开启了持续演变之路。从单体架构的简易便捷,到分布式架构的模块化解耦,再到微服务架构的精细化管理,企业对技术的选择变得至关重要,尤其是 Spring Cloud 和 Dubbo 等微服务技术的对比和应用,直接影响着项目的成败。 本篇文章会从服务架构的演进开始分析,探索从单体项目到微服务项目的演变过程。然后也会对目前常见的微服务技术进行对比,找到目前市面上所常用的技术给大家进行讲解。
14 1
服务架构的演进:从单体到微服务的探索之旅