2022云栖精选—阿里巴巴应用IPv6规模化部署 面向云计算与互联网业务的IPv6技术研发及应用

简介: 徐杰(无宸)阿里巴巴集团技术平台高级无线研发专家

lQLPJxbcF2cqNBvMiM0FeLCMz4ifcSGHeANpqgFLAEAA_1400_136.png

一、网络基石升级的挑战

image.png

网络是互联网的水电煤,而IP 是网络基石。因此,我们IPv6 IPv4的演进称为网络基石升级。

阿里 IPv6 升级过程中,首先面临的是超大业务规模的影响,影响范围覆盖了电商、文娱、物流 20 多个业务集团内外 5000+ App 数量以及10w+云产品和基础设施基础网设备。而以上影响会导致数百亿级别的资损、用户体验损伤以及服务崩溃。

image.png

同时,技术上也会面临非常复杂规模,从端到管到云到用,南北向涉及全链路、全栈的演进东西向涉及到不同业务系统,影响规模非常广。

image.png

此外我们面对复杂网络生态环境。网络生态既有设备端网络环境,也有基础运营商。设备端会面临不同平台不同厂商网络环境保障设备应用问题,另外,我们需要磨平不同运营商和地域之间的差异,保障用户体验统一性,以及避免IPv6统一升级之后带网络风险

image.png

IPv6的升级不仅仅是地址从32位升级到128位,还包括三个更深层次的含义:

第一,国家强网战略。希望在网络规模用户规模以及流量规模上全部实现全球第一。

第二,地址资源的经济收益。升级IPv6 ,可以产生数十亿级别经济收益。

第三,万物互联的基石。下一代网络多为5GAIIoT、大数据等,对于地址需求指数级增长,因此IPv6也是下一代网络互联基石。


二、全栈异步平滑演进

image.png

针对大规模业务、全栈技术演进以及复杂网络生态,我们的升级策略为南北向贯通异步演进,东西向解耦平滑升级。

南北向主要针对端三个层面,东西向主要针对不同业务横向解耦,并进行常态化的运营支撑。

image.png

云底座是 IPv6 贯通核心,因此,首先要打造高性能IPv6云底座。云底座涉及底层机房物理层、虚拟网络层,每一层需要改造的内容均十分繁杂

比如,首先要解决高性能负载均衡网关。IPv4IPv6演进的过程中,有很长一段时间IPv6IPv4并存,需要对两者同时提供支持因此负载均衡网关要支持双挂载,支持4-6平滑演进,而这增加了路由负担。

容器化和 FaaS 是未来的业界趋势,多租户挑战下,大规模路由信息如何保障?双路由会导致会话表规模翻番,长度扩大资源不足情况下,如何得到高性能虚拟网卡?针对以上问题,我们实现了硬件加速双栈智能虚拟网卡。路由时,从原先VM CPU 下放到 FPGA 增加虚拟网卡在路由时的速度和性能,扩充了多级缓存技术,加快路由速度。无论大规模高性能网关还是硬件加速的虚拟网卡,最终都需要落实到具体路由协议进行控制。

因此,我们实现了大规模 IPv6 路由控制方案AliBGP,能够实现动态分组,将同组地址聚合到一起,降低1/N 时延和耗时,能够实现快速流量切换。调度时能够实现业务租户之间隔离,也实现流量隔离,同时支持软件热修复。

image.png

底座升级后,第二个挑战在于如何面对大规模恶意 IPv6 流量安全问题。流量安全是 IPv6 规模化应用保障。首先面临的是如何解决大规模高精度IPv6 地址信息系统问题。一切安全都基于 IPv6地址库,我们IPv6地址基于用户特征账户特征行为特征属性做聚类,与原先的IPv4地址库进行同源配比基于 IPv4 地址库快速建立海量 IPv6 地址库,构建 IPv6 地址库地理信息系统

针对 IPv6应用层恶意流量清洗以及防 IPv6 DDos攻击,我们通过人工智能深度学习以及自动反馈建立智能流量清洗系统。

image.png

IPv6部署初期,基础网络发展不平衡是必经之路,不同路径、不同运营商的IPv6双栈覆盖度不高,且持续演进变化。另外,不同运营商、不同地域、不同网络制式下的网络成功率、时延等质量参数不稳定。为了保障用户体验,我们必须解决管道质量可测量可观测,这也是应用层实现高可基础。

针对以上问题,我们实现了面向管道大规模主动拨测。选择合适的应用地域机型、用户、设备更好地支持 IPv6提前设备做好质量测量标准。基础之上建立全景式管道质量观测平台,更好地支撑业务规模化。

image.png

从端侧协议到业务接入层IPv6贯通与双栈平滑演进是IPv6应用的最后一公里

客户端侧,存在IPv6因报文头过大,IPMSS降低导致大包穿透性降低的问题。统一接入层存在IPv6基础能力缺失,比如 IPv6 to 6 NAT 以及运维方面IPv6地址编码和解析等问题。客户端的痛点主要通过客户端融合网络协议栈来解决,统一接入层在控制面将IPv6能力补齐,实现管道端到端IPv6贯通。

image.png

端侧,我们提供了高性能基础网络库解决移动端高性能网络诉求。移动端高性能网络库是终端用户IPv6体验保障,因此我们需要解决复杂网络体验以及浓度与体验并重问题。

首先,需要解决如何在端上判断IPv6还是双栈支持发包探测会对用户体验带来极大影响因此必须实现本地快速判断,我们通过本地 UDPBinding的方式实现了判断。但本地UDP Binding的判断存在误差需要解决纠偏问题。我们通过系统原生状态通知网关地址判断以及 DNS 地址判断实现本地快速判断

另外,发生问题时,我们提供诊断能力。内置了 HTTP协议PIN协议 TCP 协议不同维度判断 IPv6 本地质量和支持性问题

同时,实现了多连接多通道能力。调度时采用 v6v4 双地址下发,建联时优先使用IPv6,如果无法在 200毫秒以内完成则使IPv4建联过程中参数会根据具体网络情况做细微智能化调整。并在多连接的基础上实现了多通道能力,主要包含两个维度。其一为mptcp能力;其二,在业务应用层也建立了两条通道,在不同情况下会选取不同实现。mptcp 需要服务端支持,而当前国内大部分业务对此并未提供很好的支持因此在应用上更多使用上层双连接实现多通道突破。

image.png

端、管、云均已支持IPv4IPv6平滑演进。但是对业务应用而言,想保障应用高可靠高可用仅仅依靠每一层的栈支持依然不够,需要更完整更可靠控制面控制。因此,我们实现了精细化实时IP 调度系统,使东西向解耦彻底可控,逐步实现业务平滑演进。

该系统可以针对不同业务场景、不同设备类型以及不同网络环境做精细控制。针对大规模精细化实时调度,可以基于设备维度、应用维度、用户维度、版本维度、地域维度等精细化维度实现调度。最初的调度需要依靠人力,后续可逐步演进自反馈系统。

针对大规模业务灾备恢复时间过长的问题,我们基于业务探针在高频业务插入了旁路指令需要调度时,可将调度指令通过高频业务携带给端侧终端,终端快速响应调度服务,最快可达秒级响应。

image.png

另外,我们基于PaaS的核心能力基座实现了端到端完整解决方案,以支撑集团大量 App 快速迁移,包括网络环境感知策略体验融合数据产品以及云端调度服务。

实现了南北向贯通,东西向解耦后,下一步需要实现常态化运营支撑,保证用户浓度和用户体验,并解决日常业务迭代IPv6带来的冲击。

image.png

研发期我们在端侧建立了IPv6环境模拟以及线下工具验证。发版前,基于自研 T-Monkey平台实现了自动化验收。线上运营,对浓度和体验进行监测。最终实现对研发全生命周期管控。

同时在内网, IPv6实现了逐步覆盖。对于大量小业务长尾域名进行逐步清空,并实现流量路径全覆盖,确保IPv6 高浓度不回退,用户体验不劣化


三、规模与体验 image.png

IPv6在阿里巴巴的发展可分为四个阶段:

第一阶段:2016年,IPv6 主要解决苹果 App store 上架审核问题。

第二阶段2017 年中办发布 IPv6规模化部署行动计划,阿里巴巴也 2018 年首次提出了 IPv6 MAU 1 亿的目标。2019年,阿里巴巴集团应用淘宝APP MAU首次破亿。

第三阶段:从面向用户规模转向面向流量占比,重点围绕提升 IPv6 实际应用占比展开,集团淘宝 IPv6 流量占比首次超过60%

第四阶段:提出了IPv6常态化诉求。要求存量业务 IPv6 浓度必须达到80%,增量业务全量支持 IPv6,目前已全面实现并超越目标

image.png

目前,MAU已达13亿+,最高浓度95%以上,集团内 App 200耗时相比于IPv4降低11.4%IPv6成功率已达39


四、未来与展望

image.png

未来,IPv6的演进主要包含以下三个方面:

第一,IPv6-only进行规模化突破。

第二IPv6 P2P 应用。IPv4 最大弊端在内网和外网之间单向导通,其核心障碍地址数不够,中间加了NAT无法直接访问,无法为每一个设备做公网定位。IPv6之后,突破了地址的限制,也可以实现 P2P大突破。

第三,解决应用层大量HTTP/3over IPv6 问题。

lQLPJxbcF2cqM2TM-M0CnrCgW_7LDpyh1wNpqgFKAPsA_670_248.png

 

相关文章
|
3天前
|
云安全 安全 网络安全
云计算与网络安全:技术挑战与解决策略
【10月更文挑战第39天】随着云计算技术的飞速发展,网络安全问题也日益凸显。本文将探讨云计算环境下的网络安全挑战,并提出相应的解决策略。通过分析云服务模型、网络安全威胁以及信息安全技术的应用,我们将揭示如何构建一个安全的云计算环境。
|
4天前
|
云安全 安全 网络安全
云计算与网络安全:技术融合的未来之路
【10月更文挑战第38天】 在数字化浪潮中,云计算和网络安全成为支撑现代企业和个人数据安全的两大基石。本文将深入探讨云计算服务如何与网络安全技术相结合,保障信息安全,并分析面临的挑战及未来发展趋势。我们将通过实际案例,揭示云安全的最佳实践,为读者提供一条清晰的技术融合路径。
|
5天前
|
安全 网络安全 数据库
云计算与网络安全:技术融合的未来之路
【10月更文挑战第37天】本文将探讨云计算与网络安全的交汇点,揭示它们如何共同塑造信息安全的未来。我们将深入了解云服务的核心组件、网络安全的关键策略以及两者如何相互增强。通过分析当前的挑战和未来的趋势,本文旨在为读者提供一条清晰的路径,以理解并应对这一不断发展的技术领域。
|
3天前
|
安全 持续交付 云计算
揭秘云计算中的容器化技术及其优势
揭秘云计算中的容器化技术及其优势
9 1
|
7天前
|
存储 安全 网络安全
云计算与网络安全:技术融合与挑战
【10月更文挑战第35天】本文将探讨云计算与网络安全的交叉点,包括云服务、网络安全和信息安全等技术领域。我们将深入了解云计算的基本概念,以及如何通过云服务实现网络安全和信息安全。同时,我们还将讨论云计算面临的安全挑战,并提出相应的解决方案。最后,我们将通过代码示例展示如何在云计算环境中实现网络安全和信息安全。
22 3
|
8天前
|
存储 安全 网络安全
云计算与网络安全:云服务、网络安全、信息安全等技术领域的深度剖析
【10月更文挑战第34天】本文将深入探讨云计算与网络安全的关系,包括云服务、网络安全、信息安全等技术领域。我们将通过实例和代码示例,解析云计算如何改变网络安全的格局,以及如何在云计算环境下保护信息安全。我们将从云计算的基本概念开始,然后深入到网络安全和信息安全的主题,最后通过代码示例来展示如何在云计算环境下实现网络安全和信息安全。
|
3天前
|
API 数据处理 开发工具
云计算在金融行业的应用与挑战
云计算在金融行业的应用与挑战
11 0
|
4天前
|
存储 安全 网络安全
云计算与网络安全:探索云服务、网络安全和信息安全的技术领域
【10月更文挑战第38天】本文将深入探讨云计算与网络安全之间的关系,包括云服务、网络安全和信息安全等技术领域。我们将通过实例分析,了解如何保护云计算环境中的数据和应用程序,以及如何应对网络安全威胁。同时,我们还将讨论一些常见的网络安全攻击类型,并提出相应的防御策略。最后,我们将介绍一些实用的工具和技术,以帮助您更好地保护您的云计算环境。
|
8天前
|
监控 安全 网络安全
云计算与网络安全:技术融合下的挑战与机遇
【10月更文挑战第34天】在数字化转型的浪潮中,云计算已成为企业信息技术架构的核心。然而,随之而来的网络安全问题也日益突出。本文将探讨云计算服务中的网络安全挑战,分析信息安全的关键要素,并提供实用的安全策略和最佳实践。我们将通过具体案例,揭示如何在享受云计算带来的便利的同时,保障数据的安全性和完整性。
|
9天前
|
云安全 安全 网络安全
云计算与网络安全:技术融合下的安全挑战与应对策略
【10月更文挑战第33天】在数字化转型的浪潮中,云计算作为支撑现代企业IT架构的核心,其安全性成为业界关注的焦点。本文从云计算服务的基本概念出发,探讨了云环境下的网络安全风险,并分析了信息安全的关键技术领域。通过对比传统网络环境与云端的差异,指出了云计算特有的安全挑战。文章进一步提出了一系列应对策略,旨在帮助企业和组织构建更为坚固的云安全防护体系。最后,通过一个简化的代码示例,演示了如何在云计算环境中实施基本的安全措施。