服务中国13亿社保持卡人:金保信与阿里云的“一云多芯”升级之路

简介: 在全球科技竞争与自主创新的双重驱动下,中国信息技术产业正加速推进科技创新与产业融合等多维布局,积极应对科技领域“卡脖子”难题,构建技术升级与安全保障体系。而云平台作为产业发展的核心IT基础设施,也已成为数字化转型和升级的关键支撑。2019年,阿里云基于“开放兼容”的理念率先提出并践行“一云多芯”战略,并通过飞天企业版实现从CPU扩展到GPU、网络设备,以及各类行业生态应用、自建应用的全域兼容能力。

金保信社保卡科技有限公司(以下简称金保信)作为全国社会保障卡平台的运营主体,通过阿里云飞天企业版“一云多芯”方案构建了服务13亿社保持卡人的信息系统,成功实现了每日超2亿次服务请求的高效处理,全面支撑电子社保卡、就业在线等关键业务。

image.png


保信通过引入国产硬件,完成了云平台基础组件适配与云服务替换,实现了三大核心价值:

  • 技术栈创新:通过构建云平台的自运维、自运营能力,实现信息系统深度创新,建立全链路风险防控体系;
  • 业务连续性:采用灰度切换与低峰期迁移策略,确保高频民生服务稳定运行;
  • 生态共建:参与龙蜥等开源社区建设,推动国产技术生态成熟,为未来升级奠定基础。


本文将以金保信在国产替代过程面对的挑战为切入,从系统迁移成本、系统延展性、性能压测、虚拟化适配性、轮转替换节奏及规划等维度,系统性分析其跨平台迁移实践,总结挑战与解决方案,为行业提供参考。


“一云多芯”国产替代  路径下的行业挑战与实践

当前,国产CPU在多核性能、能效比及成本控制方面已具备竞争力,尤其适合政府、国央企等对供应链安全性要求高的场景。然而,在国产替代过程中仍然需要面对单核性能短板、生态适配不足及供应链稳定性等挑战,从成本控制、替换节奏等方面需要多重考量。


系统迁移成本控制策略

资源规划与设备优化:针对日均超2亿人次的社保卡服务场景,金保信依托阿里云飞天企业版构建弹性资源池,通过长期服务协议实现规模化采购,绑定厂商技术支持以降低软硬件迭代隐性成本,并保障供应链稳定性。另一方面,金保信实行优化设备替换策略,即优先替换即将过保的Intel服务器,降低采购成本的同时还可避免因设备老化导致的运维风险,利用混合架构过渡期保障业务连续性。


运营成本权衡:除了采购成本,运营成本的控制同样是迁移过程中需要关注的重点。当前,国产CPU单核性能较国际主流品牌仍存在一定差距,且稳定性和资源调度方面也亟需提升,金保信通过降低云平台超卖比(即减少部分CPU资源利用率)来保障混部集群稳定性,但需提前评估预算与资源分配的匹配度。

image.png

据金保信内部测试报告显示,国产平台在存储性能上的表现尤为出色。某国产型号存储系统IOPS较Intel平台提升15%,延迟降低10%,但在业务测试任务中,国产CPU业务TPS较国际品牌低20%,其核心制约因素在于单核性能的差距。

image.png


设备替换节奏及规划

国产设备替换需要分阶段实施,以实现技术自主、提升安全性并维持运营稳定性,同时在性能、成本和业务连续性之间找到平衡。金保信与阿里云进行了多轮的方案交流,在“优先级驱动、最小干扰、资产保值和灵活规划”四大原则的指导下,在技术创新、安全合规与业务连续性间实现了动态平衡。整体框架分为五大核心阶段:系统评估及风险识别、替换过保服务器、过渡云底座、逐步更新云产品、优化硬件型号。


第一阶段:系统评估及风险识别

对当前使用的国外应用系统进行系统性解构,重点评估其架构类型(单体架构或微服务架构)、数据库配置及技术栈构成;全面梳理系统内外部接口体系,明确接口协议(如RESTful API、SOAP)及数据传输机制;同时识别适配过程中潜在风险,包括数据迁移兼容性、安全合规性、性能瓶颈及技术适配难度等核心维度。

第二阶段:替换过保服务器

跨平台替换的首要任务是处理过保的Intel服务器,消除硬件老化或故障带来的潜在风险。这一阶段采用轮转替换策略,根据保修到期日期逐步淘汰设备,优先处理高风险服务器,防止因停机导致的业务中断,同时避免资产浪费。通过有序替换,在不影响现有业务的情况下,逐步引入国产硬件,达到资产保值与替换政策要求的平衡。

image.png


第三阶段:过渡云底座

在奠定硬件基础后,第三阶段将核心注意力转向云底座,替换运营平台和云底座等关键组件为国产硬件。首先优先替换集群部署的产品,通过在线扩缩容技术,确保业务连续性不受影响,避免因大规模替换带来的服务中断;其次可以分批替换如RDS、EBS等对芯片要求不高的产品,可以分批验证、逐步替换。


第四阶段:逐步替换云产品

随着云底座的完善,第四阶段聚焦于根据业务需求和产品特性,逐步替换云产品。具体策略包括集群内替换和跨集群产品替换两方面。例如大数据平台等集群内产品优先进行替换,关系数据库服务(RDS)或弹性块存储(EBS)等跨集群产品分阶段验证和实施。

为减少业务中断,这一阶段采用在线技术(如先扩容后缩容或迁移),并在低影响的业务窗口期执行,结合灰度切换技术,确保替换过程平滑。通过这种方式,企业能够在保持服务可用性的同时,逐步实现云产品的“一云多芯”转型,最大限度降低对业务的影响。

image.png


第五阶段:硬件型号优化

最后一阶段聚焦于硬件型号的规划和优化,旨在选择符合性能和容量需求的国产设备。这一阶段的策略因业务需求而异:对于关键业务应用,采用性能对等策略,确保新硬件能够满足高负载需求;对于存储和网络组件,则根据容量需求和数据中心限制进行选择。在实施上,采购和部署分批进行,并根据业务测试结果动态调整以提升资源效率和可扩展性。这一阶段的目标是构建一个符合实际需求的硬件体系,不仅满足当前运营需要,还为未来技术升级提供了灵活性。


金保信“一云多芯” 转型中的技术难题与优化策略

国产硬件在稳定性和资源调度等方面正在持续进步中,因此一云多芯替换的进程并非一蹴而就,例如:搭载某国产CPU的服务器在高负载场景下虚拟机性能不稳定、ARM架构服务器运行Docker等服务时遇到的兼容性配置问题。面对这些问题,金保信技术团队与阿里云密切配合,见招拆招不断持续投入解决了多个难题。


国产CPU服务器“多芯”稳定性适配

在金保信的社保卡服务平台中,搭载某国产CPU的服务器物理机CPU使用率达80%时,虚拟机(VM)的CPU使用率呈现剧烈波动。而压力测试显示,1000并发用户场景下,该国产CPU节点的TPS约5000,而Intel平台节点可达8000。这种性能差异可能引发业务限流问题,尤其在日均2亿请求的民生业务中,性能波动将显著影响服务质量。经过多方分析,造成这一问题的原因可能包括以下几个方面:

虚拟化支持差异:该国产CPU虽基于AMD Zen架构并兼容x86指令集,但其对AMD-V虚拟化技术和微架构优化的实现可能弱于Intel CPU,导致高负载下资源调度效率不足;

NUMA架构未充分优化:多插槽服务器中,若未针对非均匀内存访问(NUMA)特性进行配置优化,跨节点内存访问延迟可能加剧高负载场景下的性能损耗;

JVM适配不足:Java业务系统对国产CPU的分支预测机制、缓存利用率等特性缺乏针对性优化,间接影响运行效率。

此外,ARM架构服务器在运行Docker等服务时,也面临与x86架构不同的兼容性配置挑战,例如:

镜像兼容性:需使用ARM64架构镜像,但许多现有镜像仍仅支持x86架构;

依赖库适配:部分工具链(如图像处理库)未针对ARM优化,可能导致性能下降,需重新编译或替换为ARM兼容版本。


“一云多芯”方案实践下的优化策略

为应对这些问题,金保信基于“一云多芯”方案采取了以下优化策略:

镜像与依赖适配通过Docker Buildx构建多架构镜像,确保x86与ARM兼容;替换未优化依赖库(如采用ARM优化的加密库)。

参数调优:增加Docker工作线程数以利用ARM多核优势,调整网络MTU值降低通信延迟。

效果验证:ARM服务器Docker部署效率提升20%,功耗降低30%,初步验证了其在高并发场景中的潜力。


在“一云多芯”改造中,金保信围绕稳定性这一数字民生服务的核心要求,通过多维度措施保障系统运行。

在性能优化方面,针对国产CPU与国际品牌间的性能差距,采取JVM优化、JDK适配、虚拟化配置调整及资源调度策略,将Java应用TPS差距从20%缩小至5%,显著提升资源利用效率。

在监控体系上,部署Prometheus和Grafana等工具,构建实时性能跟踪与可观测系统,精准定位并解决瓶颈问题。

在风险管理方面,采用分阶段实施与灰度切换策略,降低迁移风险并确保业务连续性,同时与阿里云等国产厂商建立深度合作机制,强化技术支持响应能力。


目前,金保信的一云多芯改造成效已体现在电子社保卡服务的高可用性其高峰期可用性高达99.999%,响应时间维持毫秒级,验证了国产平台在高并发场景下的稳定性,持续为13亿社保持卡人提供安全可靠的云计算服务支撑。


面向AI时代,阿里云飞天企业版正升级为“一云多算”智算平台,通过异构算力统一调度、大模型全栈优化等核心技术,实现算力资源的动态匹配与智能分配,满足行业云平台从“一云多芯”到“一云多算”的无缝演进要求,持续驱动服务系统、基础软件、行业应用等产业链实现更高水平的协同创新与生态繁荣,为中国数字经济时代的创新突破提供坚实的技术底座,与行业共建安全可靠、智能创新的数字化“国家脊梁”。

相关文章
|
JavaScript 前端开发 Shell
用shell脚本写一个坦克大战的游戏的思路
用shell脚本写一个坦克大战的游戏思路
558 1
|
9月前
|
人工智能 运维 监控
阿里云携手神州灵云打造云内网络性能监测标杆 斩获中国信通院高质量数字化转型十大案例——金保信“云内网络可观测”方案树立云原生运维新范式
2025年,金保信社保卡有限公司联合阿里云与神州灵云申报的《云内网络性能可观测解决方案》入选高质量数字化转型典型案例。该方案基于阿里云飞天企业版,融合云原生引流技术和流量“染色”专利,解决云内运维难题,实现主动预警和精准观测,将故障排查时间从数小时缩短至15分钟,助力企业降本增效,形成可跨行业复制的数字化转型方法论。
506 6
|
4月前
|
机器学习/深度学习 数据采集 人工智能
通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互
近日,通义实验室MobileAgent团队正式开源全新图形界面交互基础模型 GUI-Owl,并同步推出支持多智能体协同的自动化框架 Mobile-Agent-v3。该模型基于Qwen2.5-VL打造,在手机端与电脑端共8个GUI任务榜单中全面刷新开源模型性能纪录,达成全平台SOTA。
1541 2
|
6月前
|
人工智能 运维 自然语言处理
电力+AI,「国网云智」重构电网运维的"超级大脑"
在深夜,当城市楼宇渐入梦乡时,在国网信通公司云运营中心还有一批运维工程师默默守护着大家微弱的灯光、此起彼伏的沟通声、咔咔的键盘敲击声响彻着每个工位。 当某系统的异常警报亮起时,工程师迅速利用「国网云智」定位问题,屏幕上即刻弹出详尽的排查方案及解决方案;而另一侧的监控员框选闪烁的告警区域,系统已自动锁定故障点,并在生成检修方案上标注了对应的工具清单和操作优先级。
679 0
|
6月前
|
人工智能 容灾 专有云
阿里云亮相2025可信云大会,获中国信通院多项权威认证
2025年7月22-23日,由中国信息通信研究院、中国通信标准化协会联合主办的“2025可信云大会”在北京举行。本届大会以“云智融合,可信未来”为主题,汇聚业内专家、头部企业、行业代表等超300人参会,共同探讨人工智能与云计算融合发展的新趋势。 作为国内云计算领域的技术引领者,阿里云在本届大会获得多项权威认证及行业认可,并全面分享在智算服务、一云多芯、可运营云等领域的创新实践,为政企客户打造AI时代的智能化新引擎。
734 0
|
9月前
|
资源调度 运维 容灾
中国广电云,全国首个多Region2.0架构升级正式完成并亮相2025CCBN!
2025年4月25日,中国国际广播电视信息网络展览会(CCBN)在北京圆满落幕,在中国广电集团的展台上,阿里云支持建设的“国家文化专网基础设施——中国广电云”接待国家广电总局领导及广电传媒行业专家的参观指导,安全自主、文化特色、全国覆盖、产业智能等中国广电云的鲜明特点给莅临展位的行业同仁留下了深刻的印象。
476 4
|
9月前
|
存储 人工智能 自然语言处理
又双叒叕获认可!阿里云AI Stack一体机首批通过国家评测认证
近日,阿里云AI Stack一体机通过了中国电子技术标准研究院的“云上部署DeepSeek验证测试”,成为首批通过该评测的AI大模型一体机。
1074 10
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
PAI Model Gallery 支持云上一键部署 DeepSeek-V3、DeepSeek-R1 系列模型
DeepSeek 系列模型以其卓越性能在全球范围内备受瞩目,多次评测中表现优异,性能接近甚至超越国际顶尖闭源模型(如OpenAI的GPT-4、Claude-3.5-Sonnet等)。企业用户和开发者可使用 PAI 平台一键部署 DeepSeek 系列模型,实现 DeepSeek 系列模型与现有业务的高效融合。
|
8月前
|
人工智能 运维 安全
十年同行,阿里云飞天企业版支持中国企业扎根全球
今天,在阿里云主办的「2025中企出海大会」上,阿里云飞天企业版(Apsara Stack)正式发布最新国际化产品与服务能力,全面助力中企出海和国际市场。阿里云专有云应急服务负责人张淑芬在大会发表“飞天企业版-本地化专有云计算服务”主题演讲,深入解读飞天企业版面向中企出海的三大核心产品解决方案,以及阿里云在全球化部署与生态合作方面的实践成果与战略布局。
372 1
|
6月前
|
人工智能 安全 数据可视化
安全领航!阿里云AI Stack一体机首批通过国家信通院大模型安全能力认证
在人工智能深度渗透千行百业的当下,阿里云AI Stack一体机首批通过中国信通院《大模型一体机安全能力要求》标准评估,成为国内首批在系统架构上达标的标杆产品,标志着企业级大模型部署迈入安全可信新阶段。
565 0