让计算变简单 | 信号高速路上,华为服务器是如何绕过那些“坑”的

简介:

一台汽车的车速,不仅仅与发动机、底盘、传动装置等有关,也与路面的平整程度有关。

与此类似,服务器的性能及可靠性表现,不仅仅与CPU、内存、硬盘等有关,也与信号链路的质量有关。服务器中CPU之间有UPI信号链路,CPU与外设之间有PCIe信号链路,CPU与内存之间有DDR信号链路等。

链路质量如果不高,则信号在链路上传输会导致信号的衰减、失真,甚至串码或误码,并会导致信号的重传,影响信号的传输效率,进而影响服务器的性能甚至可靠性。

以华为8路关键业务服务器为例,其有6000多条信号链路,有的链路长度超过500毫米。电路板上BGA ball的过孔、电容布放、连接器连接等,导致链路情况非常复杂,而且在有限的空间内链路间还会相互干扰,链路质量的要求就更高了。

今天我们就来看一看,华为服务器是如何做到信号链路的高质量的:

三维立体设计

华为服务器采用三维立体设计方法:计算节点分布在Y空间排列;IO模块前后交错布局,充分利用X空间;高速连接器高密度布放,降低Z空间高度。既充分利用物理空间,也尽量降低信号链路之间的互相干扰。 

让计算变简单 | 信号高速路上,华为服务器是如何绕过那些“坑”的

▲三维设计建模

仿真优化与工艺

信号在PCB板上要通过BGA ball过孔、电容、连接器等部件,信号在穿过上述部件时,阻抗必须保持在一个很小的波动范围内,这需要对各部件进行三维全尺寸建模仿真,以及数百次的仿真测试与不断优化,控制信号的波动范围在CPU正常工作所必需的最大波动范围之内。信号要求波动小(也就是要求阻抗一致性高),对信号链路的制造精度也提出了更高的要求,华为服务器信号链路制造工艺的精度精确到了0.025毫米,提升了链路阻抗的一致性。

让计算变简单 | 信号高速路上,华为服务器是如何绕过那些“坑”的

▲BGA ball过孔仿真
让计算变简单 | 信号高速路上,华为服务器是如何绕过那些“坑”的

▲电容仿真

让计算变简单 | 信号高速路上,华为服务器是如何绕过那些“坑”的

▲连接器仿真

让计算变简单 | 信号高速路上,华为服务器是如何绕过那些“坑”的

▲阻抗一致性仿真

严苛测试与眼图检测

在某些极端环境下,如机房温度或者湿度超过规定范围时,信号链路的阻抗波动将加剧。

华为服务器除了常规测试外,还包括满荷运载、温度循环、电压超压和低压拉偏等非正常环境下的测试,来检验链路中信号的波动情况。另外,华为服务器在生产过程中引入了信号数字眼图检测技术,这项技术通过分析数字信号高电平与低电平变化的多种序列组合,在时域上将这些序列按某一个基准点对齐,然后将其波形叠加起来,形成类似于眼睛状的图形,通过对图形形状的分析快速发现其他检测手段很难识别出的链路信号质量不高的单板,并及时进行回收处理。

让计算变简单 | 信号高速路上,华为服务器是如何绕过那些“坑”的

▲数字眼图的形成

服务器的高性能与稳定可靠,取决于多方面的因素,信号链路的质量是因素之一。华为服务器通过三维立体设计、仿真优化、0.025毫米精度的制造工艺、严苛测试以及数字眼图检测技术等措施,保障信号链路的高质量,从而为服务器的高性能、高可靠性提供多一份保障。



原文发布时间为: 2017年6月27日

本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。

相关文章
|
13天前
|
机器学习/深度学习 弹性计算 人工智能
阿里云服务器ECS架构区别及选择参考:X86计算、ARM计算等架构介绍
在我们选购阿里云服务器的时候,云服务器架构有X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、高性能计算可选,有的用户并不清楚他们之间有何区别,本文主要简单介绍下这些架构各自的主要性能及适用场景,以便大家了解不同类型的架构有何不同,主要特点及适用场景有哪些。
|
18天前
|
存储 人工智能 运维
面向AI的服务器计算软硬件架构实践和创新
阿里云在新一代通用计算服务器设计中,针对处理器核心数迅速增长(2024年超100核)、超多核心带来的业务和硬件挑战、网络IO与CPU性能增速不匹配、服务器物理机型复杂等问题,推出了磐久F系列通用计算服务器。该系列服务器采用单路设计减少爆炸半径,优化散热支持600瓦TDP,并实现CIPU节点比例灵活配比及部件模块化可插拔设计,提升运维效率和客户响应速度。此外,还介绍了面向AI的服务器架构挑战与软硬件结合创新,包括内存墙问题、板级工程能力挑战以及AI Infra 2.0服务器的开放架构特点。最后,探讨了大模型高效推理中的显存优化和量化压缩技术,旨在降低部署成本并提高系统效率。
|
18天前
|
存储 人工智能 芯片
面向AI的服务器计算互连的创新探索
面向AI的服务器计算互连创新探索主要涵盖三个方向:Scale UP互连、AI高性能网卡及CIPU技术。Scale UP互连通过ALink系统实现极致性能,支持大规模模型训练,满足智算集群需求。AI高性能网卡针对大规模GPU通信和存储挑战,自研EIC网卡提供400G带宽和RDMA卸载加速,优化网络传输。CIPU作为云基础设施核心,支持虚拟化、存储与网络资源池化,提升资源利用率和稳定性,未来将扩展至2*800G带宽,全面覆盖阿里云业务需求。这些技术共同推动了AI计算的高效互联与性能突破。
|
2月前
|
机器学习/深度学习 弹性计算 人工智能
阿里云服务器架构有啥区别?X86计算、Arm、GPU异构、裸金属和高性能计算对比
阿里云ECS涵盖x86、ARM、GPU/FPGA/ASIC、弹性裸金属及高性能计算等多种架构。x86架构采用Intel/AMD处理器,适用于广泛企业级应用;ARM架构低功耗,适合容器与微服务;GPU/FPGA/ASIC专为AI、图形处理设计;弹性裸金属提供物理机性能;高性能计算则针对大规模并行计算优化。
109 7
|
2月前
|
存储 运维 数据挖掘
服务器数据恢复—华为OceanStor存储数据恢复案例
服务器存储数据恢复环境: 华为品牌型号为OceanStor S2600T的存储设备,存储上有一组由24块4T容量的机械硬盘组建的RAID5阵列,作为存储池使用。 图1 服务器存储故障&检测: 存储设备中raid5阵列上多块硬盘出现故障离线,raid5阵列失效,数据无法正常访问。 关机后将存储中所有硬盘标记&取出,硬件工程师对所有硬盘进行硬件故障检测。经过检测,没有发现存在物理故障的磁盘,都可以正常读取。
|
1月前
|
存储 Oracle 关系型数据库
服务器数据恢复—华为S5300存储Oracle数据库恢复案例
服务器存储数据恢复环境: 华为S5300存储中有12块FC硬盘,其中11块硬盘作为数据盘组建了一组RAID5阵列,剩下的1块硬盘作为热备盘使用。基于RAID的LUN分配给linux操作系统使用,存放的数据主要是Oracle数据库。 服务器存储故障: RAID5阵列中1块硬盘出现故障离线,热备盘自动激活开始同步数据,在同步数据的过程中又一块硬盘离线,RAID5阵列瘫痪,上层LUN无法使用。
|
3月前
|
存储 固态存储 安全
阿里云服务器X86计算架构解析与X86计算架构云服务器收费价格参考
阿里云服务器架构分为X86计算、Arm计算、高性能计算等多种架构,其中X86计算是用户选择最多的一种架构,本文将深入探讨阿里云X86计算架构的云服务器,包括其技术特性、适用场景、性能优势以及最新价格情况。
|
3月前
|
编解码 弹性计算 应用服务中间件
阿里云服务器Arm计算架构解析:Arm计算架构云服务器租用收费标准价格参考
阿里云服务器架构分为X86计算、Arm计算、高性能计算等多种架构,其中Arm计算架构以其低功耗、高效率的特点受到广泛关注。本文将深入解析阿里云Arm计算架构云服务器的技术特点、适用场景以及包年包月与按量付费的收费标准与最新活动价格情况,以供选择参考。
|
3月前
|
机器学习/深度学习 弹性计算 编解码
阿里云服务器计算架构X86/ARM/GPU/FPGA/ASIC/裸金属/超级计算集群有啥区别?
阿里云服务器ECS提供了多种计算架构,包括X86、ARM、GPU/FPGA/ASIC、弹性裸金属服务器及超级计算集群。X86架构常见且通用,适合大多数应用场景;ARM架构具备低功耗优势,适用于长期运行环境;GPU/FPGA/ASIC则针对深度学习、科学计算、视频处理等高性能需求;弹性裸金属服务器与超级计算集群则分别提供物理机级别的性能和高速RDMA互联,满足高性能计算和大规模训练需求。
134 6
|
3月前
|
监控 Serverless 云计算
探索Serverless架构:无服务器计算的新纪元
Serverless架构作为云计算的新范式,让开发者无需管理服务器即可构建和运行应用,从而专注于代码开发。其核心优势包括成本效益、自动扩展及高效部署。通过事件驱动模型和微服务部署,开发者按需付费,减少了资源浪费。尽管面临冷启动、状态管理和调试等挑战,Serverless架构仍凭借其高效性与可扩展性展现出广阔的应用前景。流行平台如AWS Lambda、Azure Functions等使其实施更为便捷。

热门文章

最新文章