一、数据中心网络面临的挑战
1.数据中心网络产品
在开始讲挑战之前,先回顾一下什么是数据中心网络产品。数据中心网络产品包括专有网络VPC、NAT网关和私网连接。它解决的是用户单地域的组网问题,VPC为用户提供云上逻辑隔离的网络空间,在这个网络空间用户可以部署和访问我们的服务,NAT网关对外屏蔽了云服务的地址,为用户提供仅出的规则,为用户在访问互联网的时候提供了一层额外的安全保障。私网连接是云上标准的VPC服务化访问连接的方式,它帮助用户在VPC和RDC安全稳定的访问部署在其他VPC的一方和三方服务。
2.构建数据中心网络面临的挑战
用户企业上云都是从单地域开始,最早接触的也是数据中心网络产品,比如VPC,但随着企业上云进制的推进,用户的诉求在发生变化,这个过程在去年的云栖大会有分享,今年还在讲是因为这是企业上云典型的路径,总结一下用户对我们在这个过程中的诉求是安全、稳定、性能、成本、可观测等等。今年站在用户的视角去讲产品能力升级是怎样帮助用户解决在这些维度的问题。以一次典型的VPC规划过程来进行分享。什么是一次典型VPC规划过程?是根据企业上云过程,根据云上客户最佳实践,围绕着规划、创建VPC、访问云服务、访问互联网等等的关键动作,来进行的一个使用VPC的总结。一共分六个步骤,从选择地域可用区,到确定账号和VPC的关系,到网段规划,怎么去做云上数据网络的安全隔离的设计,怎么做容灾的设计,怎么更加安全的访问互联网。可能有人要问,这里为什么只有三个,其实本质上要回答的问题是为什么过去一年,数据中心网络产品的更新是围绕这三个维度展开,下面来看三个数据。
(1)20+
第一个是VPC所服务的中小企业平均持有VPC数——20+,在三年之前,这个数可能还是个位数,云上VPC数量的增长对VPC网段分配的效率和分配的准确性凸显重要,在这样的背景下,我们推出了RPM这样高效自动化的地址管理工具。
(2)百级PB/月
第二个数据是观测日志的采集量——百级PB/月,这个数据在过去也保持一个比较高速的增长,可观测数据量的增长,也一定程度上代表了用户选择将越来越多的业务部署到云上。可观测的人力对于安全设计和容灾稳定的角度也是非常重要的,基于这样一个背景,我们数据中心网络也在持续不断地迭代深度可观测的人力。
(3)10s->2s
第三个数字是10秒到2秒,它是容灾场景下路由切换的性能,是一个比较小的功能,但是借这样一个数据想表达一个趋势:越来越多的用户并不是选择把容灾全部交给云厂商做,而是基于一个责任共担的模型,基于云产品确定的产品能力,考虑到自身的容灾需求,来设计更为合理的容灾架构。在这个背景下,云厂商要做的是不断地增强自身产品在性能、安全这些维度的产品确定性。
接下来产品的发布将会围绕网段规划、安全、容灾以及对安全容灾很关键的可观测性,最后还有一个我们坚持长期在做的产品体验,去逐个展开。
二、数据中心网络产品重磅发布
1.数据中心网络安全设计建议
在构建数据中心网络的时候,在安全设计的建议,从创建VPC开始,VPC一定是云上安全隔离的最佳选择,如果用户的两个业务希望不要互访或者有些互访,我们建议用户规划多VPC。在单个VPC内,如果依然存在安全隔离的需求,客户通过vSwitch叠加网络LCR和路由特性实现安全隔离,这种分层的安全设计也便于用户进行更精细的流量访问控制。部署完网络后,用户需要访问云服务,我们强烈建议用户尤其是涉及到业务数据云服务的访问,通过私网进行访问。
接下来我的安全产品发布同样也是围绕着持续聚焦在云服务的安全访问上。
(1)私网连接全量接入通义系列服务
首先是第一个重大发布是私网连接这个产品作为云上VPC标准的服务访问方案,现在已经全量接入通义系列服务,比如说百炼、灵码等等,为AI场景提供了安全可信的私网访问通道。相对于互联网访问的方式,它有效的解决了质量不可控、安全不可控的问题。来看一个用户案例:有一个SARS应用客户,他希望能够高质量的通过百炼调用阿里云通义的大模型,为他的应用进行AI赋能,他希望他的业务数据不要出现只在内网传输的情况,基于这样的背景,客户构建了一个模型推理的专区,在专区里通过数据隔离、数据审计和私网连接访问服务这样的方式确保了他的业务数据不出专区。
(2)私网连接:VPC与云上服务安全稳定的私有连接
除了通义系列的服务以外,私网连接是VPC云上连接标准的、安全连接的方案,相比于去年只有三款服务接入PrivateLink,今年已经有20多款云服务接入了PrivateLink,这个数据还在不断地增长。这不仅体现了我们在对服务的安全访问上持续的迭代,也体现了用户对于更安全访问方式的诉求。
2.数据中心网络容灾设计建议
数据中心网络容灾设计建议基于责任共担模型,要分两个视角来看,阿里云的视角,自底向上阿里云要去关注的是基础设施的可用性,在这之上是云产品可用性,要能够确保在发生故障的时候,能够快速恢复,确保服务的连续性。在这两者之上是云产品更加确定的产品能力,让用户能够更好的构建自身业务的稳定性;站在用户视角,用户首先要关注到所使用的云产品的容量和产品的性质,关注产品确定的容灾性质和可观测能力,然后再结合自身的容灾诉求去设计合理的容灾架构,并且要做到持续的监控系统和应用的监控状态,及时发现并处理故障。这是基于容灾设计的模型,阿里云和用户共同努力,帮助用户构建更加稳健的业务系统。
(1)基于NAT网关确定的容灾能力,助力用户AZ故障场景秒级恢复
过去一年NAT网关发布了几个特性:首先是更加确定的产品容灾能力定义。可能在座很多用户都知道NAT网关是主备容灾的,但是过去对于主备容灾触发的机制以及它的性能不是特别清晰。在过去一年随着产品的优化,我们在今年清楚的定义了NAT网关的容灾能力。它是在主可用区发生故障导致实例流量100%丢弃的时候会触发主备切换,这个切换最长会在10分钟之内完成。第二个NAT网关在今年新增了一个实例健康状态,通过这样一个监控指标,用户可以及时的获知NAT网关的工作状态。
结合这两个发布,某物流企业的用户结合它自己对容灾性能的要求,它对的公网初构的架构进行了改造,从原来单代实例为整个地域服务的架构切换到双可用区双活的形态,并且把NAT网关的实例健康的状态提升到它自身的运维平台中,当发现AZ级别故障或者实例级别故障时,可以自动化触发,在源端进行业务切换,最终实现在这两个故障场景下分钟级的切换性能到秒级的提升。
(2)基于ZooRoute实现链路故障场景秒级自愈,用户无感
此外,云平台也在持续不断地构建自身的稳健性。前面有分享过ZooRoute技术,很高兴地与大家分享,ZooRoute技术现在也应用到数据中心网络中了,可以做到90%数据中心网络链路故障场景小于3秒的自动恢复。数据中心网络场景主要涵盖的是ECS访问ECS,访问云服务等等这些场景。
在此之前其实我们数据中心网络底层的物理网络设备数量比较大,故障定位也比较复杂,收敛的优化难度也比较大,但如果寄希望于四期的协议进行优化,改善恢复的性能,又不具备普适性,正是在这样的背景下,在虚拟网络这一层,基于ZooRoute成路技术,依靠端侧链入实施探测,我们维护了有效路径的一个列表,实时探测有效路径,快速进行失效路径的切换,通过这样的方式实现链路故障场景秒级自愈,提升了数据中心网络平台整体的稳定性。
3.构建产品深度可观测,助力用户高效运维
以上是安全和稳定,前面也说了可观测对于他们也是至关重要的。作为数据中心网络的产品经理,在迭代深度可观测能力的时候,我认为要从两个维度持续不断地更新。一个是广度,就是指我们的可观测能力要尽可能多的覆盖我们数据中心网络的服务;另外一个是精细度,我们采集的日志和镜像的报文要能够精确的满足用户业务场景的诉求。
基于这样的设计原则,今年在可观测能力上发布了一些重要的能力。首先是广度,第一个是流量镜像支持更多ECS规格类型,在这里稍微更新一下,到站到台上为止,已经可以支持100%ECS规格类型,也是少数几家可以做到这一点的云厂商;第二个是流日志支持更多云服务类型,之前支持的是ECS和NAT,今年新增支持ALB/TR/VPN以及所有通过Private link接入的云服务都支持VPC的流日志。在精细度的维度也有两个发布,第一个是NAT网关支持会话日志,它记录的是SNAT会话的相关信息,用户的安全团队可以通过日志进行快速溯源,遏制安全风险,值得一提的是,日志的采集是免费的;后面是流日志支持更多的场景化的采集,尤其是客户刚需的跨域和公网的场景。
我们来看一个案例:有一个互联网用户给我们提了一个需求,他希望我们VPC的流日志能够采集专线的日志,当专线带宽的水位超出阈值的时候能够通过日志分析快速发现大带宽的来源,然后进行及时的干预,防止专线被打爆。通过使用我们的场景化日志,客户整体日志的采集成本下降了90%,同时它采集的数据又能完全满足业务场景的诉求。当然场景化日志还可以用于分账。
以上是对应VPC典型规划过程的安全和容灾,接下来这部分将包括网段规划和产品体验的升级。
三、用户体验升级
1.助力用户高效规划、管理网络
(1)我们首先来看为什么网段规划很重要?
随着用户在云上的资源越来越多,IP的分配和管理也越来越复杂,传统的依赖人工和电子表格的方式非常容易出错,再加上IPv4地址耗尽这样一个大背景,用有限资源支撑业务增长本身把这个事情变得及其复杂,再加上非常多的客户采用的是多账号场景,跨账号的场景下,能够做到VPC地址分配不出错,效率高,把刚才的复杂度又提升了一个等级。用电子表格和人工的分配方式比较容易出错,一旦出错可能产生地址的重叠,并且分配不好还容易出现地址碎片,不论是重叠还是碎片对于安全组或防火墙或者路由配置其实都是非常复杂的。另外一个维度就是非常多的服务支持弹性扩展,但是如果弹性扩展依赖后台IP的分配,这样一个分配如果是人工的话,那这个弹性要打双引号。正是在这样一个背景之下,如果一开始没有工具去做高效自动化的地址的规划和分配的话,其实会大大简化管理工作。
(2)通过VPC IPAM实现网络地址高效管理
在这样的背景下,推出了IPAM。去年IPAM支持了IP地址的自动分配,今年在此基础之上,新增了三大功能:第一是基于地址共享实现跨账号IP地址集中管理;第二是资源自动发现,非常多用户在使用IPAM之前云上已经有资源了,他期望存量资源和新增资源能够统一进行管理。再补充一点,我们还有地址预留的功能,可以为IDC,可以为其他云上的网络预留地址,这样就完整实现了客户对于统一管理的诉求。统一管理之后可以做什么呢?比如说可以做地址冲突的检测,快速发现冲突的地址并进行及时的干预;第三个是我们支持资源利用率的监控告警,这对于网络管理员来说比较重要。他可以通过监控告警实时查看比如地址池,比如VPC地址利用率的情况,进行及时的扩容。
总结一下IPAM的三大优势:第一个是高效响应云资源地址的弹性分配,从人工可能花一个月的时间,现在只用花费一个APR调用时间;第二个是因为我们是一个树状结构,是一个自上而下的地址分配,所以它让安全和路由的规则去引用大段地址成为可能,从而得到规则配置简化的效果;第三个是基于刚才说的地址冲突检测和地址利用率的高级,可以实现IP相关问题的快速定位。我们IPAM现在只支持4网地址IPv4,未来我们会向公网和IPv6持续的拓展。
2.提供简单、易用、确定的产品体验
我们再来看产品体验的升级。分成两个部分:产品能力的升级。我们的前缀列表在去年发布了以后,就被非常多我们的用户在管理路由的时候使用,因为很好用,我们收集到了用户需求,他说那安全管理也很复杂,几千条规则,那能不能前缀列表也用于安全组呢?我们听到了客户的心声,就在前缀列表上支持了安全组,可以帮助用户提升安全组管理效率。另外维度是我们持续在做降低产品的使用门槛。一个是IPv6,我们持续不断地迭代IPv6的功能,包括全地域支持IPv6,VPC的这些高级特性去支持IPv6。还有一个降低产品使用门槛,我不知道在座客户对于原来VPC控制台上有一个TypeE,TypeE叫高级特性。在那个高级特性里面,它帮用户检查这个VPC能不能用,子网路由表到底能不能用网络ACR,今天打开看,这个TypeE也没有了,因为把这个限制通过产品的优化、技术能力的升级,把这个限制取消掉了。我们VPC现在所有的高级特性用户,所有的VPC缺省可用了。