作者:陆睿 陈钦 王鹏
从玛雅历法到圆周率、从万有引力定律到二进制,科技文明的每一次飞跃都由计算为其注入能量。在这个数据和计算的时代,从网上购物、社交、线上视频,到抗疫的健康码,我们每一天的生活几乎都和云计算息息相关。计算,不仅仅包括数据的处理,更包括数据的传输,数据传输量和传输速度直接决定了计算的速度。
一、跑在“光”上的云计算✦
云计算是跑在光上的。今天的云计算需要海量的数据传输,传输一个比特的数据,比处理一个比特的数据要消耗更多的能量和成本,一台云计算服务器和外界每秒需要交换100亿字符的数据,而计算能力以每两年翻一番的速度向前发展,如此大的数据传输,传统的电的传输方法已无法处理,今天,数据中心内几乎所有服务器间的数据传输都通过光来进行。
图1|光互联系统
数据在“光”上的传输,需要通过“光模块”来实现。“光模块”也叫光收发器,模块的发端把电信号转换成光信号,通过光纤把光信号传送到接受地,在模块收端把光信号转换成电信号,通常收发一体。光模块的传输速率从早期的155M,622M逐渐发展到10G,40G,100G,200G,400G。以前的光模块主要是用在运营商的电信网络中,十几年前,互联网公司的数据中心计算网络成为光模块的最大用户。数据中心计算网络和电信网络有很大不同,具有设备的端口密度大、数量多、数据链路短、演进速度快等特点,所以,数据中心光模块的发展方向是小型化,低功耗,低成本,以及技术的快速演进迭代。
图2|数据中心光模块
由于阿里云计算的发展需求,过去10年阿里数据中心网络带宽(bisectional bandwidth)增长了1000倍,下图展示了近几年来阿里巴巴数据中心网络所使用的光模块方案,光模块平均每三年左右更新一代。
图3|阿里巴巴数据中心光模块方案
(注:ASW:接入交换机;PSW:汇聚交换机;DSW:集群核心交换机;Core:园区核心交换机)
未来5G、边缘云、人工智能、物联网、产业互联网、区块链等为代表的新技术的快速发展将对云计算提出新的要求,将需要新的光技术来支持数据的高效快速传输。
二、从封闭走向开放
早期,阿里巴巴在建设和运营数据中心网络的时候,向网络设备商购买整套解决方案,“光模块”作为网络设备的一个组件,被封闭在整个网络的黑盒子里。黑盒子一样的封闭系统,不仅阻挡了对系统的整体设计和优化,也使得公司难以进行快速技术迭代和进一步提升运营能力。如何解决这一困境?建立研发技术能力、从封闭系统走向开放开源系统,才能充分利用和全方位地提升数据中心网络的能力,促进行业的竞争和技术的发展。
2015年,阿里巴巴技术保障部成立了光网络技术团队,开始启动开放“光模块”的工作。这个工作的第一步,就是要把“光模块”从黑盒子的网络设备中解放出来,建立起光互连方案的设计、认证、集成的能力,打造开放的网络系统。
图4|光模块/AOC的认证和集成
经过短短半年时间,专业的光网络实验室建成了,高速示波器、以太网流量仪、温湿度箱等测试仪表一应俱全,并在2016年第一批开放解耦的40G光模块开始上线试运行。经过一年的考验,2017年40G和100G光模块开始在阿里巴巴的数据中心网络里全面部署,且可做到两到三个月内完成一款光模块的引入。此时,阿里巴巴成为了国内第一个大批量应用100G网络的云计算/互联网公司,在世界上也处于领先地位。
图5|丰富的测试设备和制具
阿里巴巴不仅自己快速建设了开放光模块的各项技术能力,也积极参与开放组织,把技术能力分享给产业界。2017年,阿里巴巴主导的100G光模块和25G AOC的技术规范在ODCC发布,把开放数据中心光模块的理念和经验推广到产业的上下游,让产业的所有参与者都收益。
万事开头难,开放光模块终于走出了坚实的第一步。
三、挑战和应对
阿里巴巴数据中心规模迅速成长,短短2年时间,引入的开放光模块的线上数量,从十万级到达到百万级,从主要用在数据中心集群网络,到覆盖整个数据中心的所有网络设备,与此同时,阿里光网络团队也开始面临越来越大的挑战:
1. 数量众多的网络设备和光模块型号
仅仅100G的网络设备型号都多达100款,涵盖各种角色的交换机、路由器、服务器、分流器等多种设备,并且绝大多数设备是商用设备。不同厂家的设备在光模块接口设计上的标准不一致,芯片方案不一样,软硬件设计不一样,设计余量和质量控制水平不一样,光模块的类型众多,光100G光模块就有SR4、CWDM4、LR4、ER4等多种标准和技术方案,分别都有多个厂家供应,并且我们每年还会引入新的芯片方案。所以造成的排列组合数量众多,纷繁复杂。
2. 对链路质量越来越敏感的业务
光模块的速率越来越高,同样链路的间歇性抖动或者持续误码导致的数据丢失是之前的很多倍,业务对光链路质量越来越敏感。所以,业务复杂性对物理层稳定性要求变高和高速的光电信号质量保证的难度变大成为了不可调和的矛盾。
3. 光模块的失效率
在线运行的光模块数量达到了百万数量级别,这个数量级别对光模块的失效率也变得越来越敏感。千分之一的失效率的增加就会导致几千条链路故障,几千个光模块需要更换,引发网络故障的概率也会大幅上升。
阿里光网络团队开始意识到,自主定义光模块技术规范,认证、集成开放的光模块到网络中仅仅是第一步。整个技术体系还未形成闭环,还缺乏质量管控和运维体系来把质量问题反馈到研发端。
数据中心光模块的数量极其巨大,并且分散在全世界的各个机房当中,依靠人力难以获取到这些光模块的运行情况,当发现光模块更换数量异常的时候,也难以快速找到相关性。这将对我们的网络质量产生巨大的风险和挑战。
为了应对这靠人力不可为的挑战,管控好海量光模块的运行质量,必须在认证测试阶段严格规范光模块的可靠性测试,在批量部署阶段规范光模块的出厂测试,在上线运行阶段通过机器大数据实时监控运行质量,充分借助机器的力量打造完整的体系来完成这不可能的任务。
✔ 认证阶段质量管理✦
Telcordia GR468 可靠性标准被行业广泛使用,其中规定的测试项能够保证光模块的鲁棒性以及基本的可靠性,例如HTOL(高温老化)、uBHD(双85)、TC(温循)、HTS高温存储等测试项目。在GR468框架下,阿里根据数据中心实际使用情况,会制定一些测试项目,例如双85后叠加168小时的高温老化,模拟光模块在高温高湿地域存储后在网络交换机上工作一段时间后是否会失效。
“尽信书则不如无书”,在标准的基础上结合我们的实际应用对可靠性测试进行补充,才能真正的控制光模块质量,形成理论结合实际的方法论。
✔ 批量部署的质量管理✦
即便在研发认证阶段进行了完整的可靠性测试,也不免会在后续大批量生产制造过程中的管控不力所产生的批次质量问题。因此,在批量部署阶段,仍需要对批量生产的光模块进行抽样性的可靠性管控。例如针对激光器的eBI(extended Burn in)扩展老化,验证Burn in条件对于筛选激光器早期失效(Infant mortality failure)的有效性;ORM(On-going reliability monitor),采用一定的抽样方式对出货产品进行非破坏性的可靠性验证,目的是监控和拦截由于生产波动导致的产品质量波动;IST (In System Test) 模块出货前和阿里自研交换机的系统集成测试,采用一定的抽样方式对模块进行抽样验证系统兼容性,贯穿整个产品的生命周期。
✔ 线上运维体系✦
作为海量数据中心光模块的运营者,当你听到某个业务因为光链路质量问题受到影响;当你看到这个月更换下来的光模块数量陡然增加时;当你听到建设同学抱怨由于光链路质量无法交付时…….,而你却只能靠手敲着命令行去查问题,那种无力感……
光网络技术团队早早预判到规模化数据中心所带来的这种困局,提前研发了基于大数据的光模块数字智能化平台,实时收集光模块的各种工作参数和链路质量数据,并快速整理出相关性,无论是在发现问题和定位问题上都快人一步。正是由于这套体系的建立,让运营同学可以运筹帷幄,从容面对百万级的光模块运行。
图6|光模块数字智能化平台
四、展望未来✦
人类对计算力的追求不会停止,计算力仍然以每两年翻一倍的速度向前发展,数据和计算的有机结合将会给云计算带来更大的价值。这是机遇,但也在技术上带来很大的挑战,如何利用光技术使数据传输更简单、让云计算跑的更快已经深入我们每天的工作中。
唯有深耕技术、不断创新,才能让云计算继续 “光”速发展!
我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。
获取关于我们的更多信息~