2022云栖精选—阿里巴巴应用IPv6规模化部署 面向云计算与互联网业务的IPv6技术研发及应用

简介: 徐杰(无宸)阿里巴巴集团技术平台高级无线研发专家

lQLPJxbcF2cqNBvMiM0FeLCMz4ifcSGHeANpqgFLAEAA_1400_136.png

一、网络基石升级的挑战

image.png

网络是互联网的水电煤,而IP 是网络基石。因此,我们IPv6 IPv4的演进称为网络基石升级。

阿里 IPv6 升级过程中,首先面临的是超大业务规模的影响,影响范围覆盖了电商、文娱、物流 20 多个业务集团内外 5000+ App 数量以及10w+云产品和基础设施基础网设备。而以上影响会导致数百亿级别的资损、用户体验损伤以及服务崩溃。

image.png

同时,技术上也会面临非常复杂规模,从端到管到云到用,南北向涉及全链路、全栈的演进东西向涉及到不同业务系统,影响规模非常广。

image.png

此外我们面对复杂网络生态环境。网络生态既有设备端网络环境,也有基础运营商。设备端会面临不同平台不同厂商网络环境保障设备应用问题,另外,我们需要磨平不同运营商和地域之间的差异,保障用户体验统一性,以及避免IPv6统一升级之后带网络风险

image.png

IPv6的升级不仅仅是地址从32位升级到128位,还包括三个更深层次的含义:

第一,国家强网战略。希望在网络规模用户规模以及流量规模上全部实现全球第一。

第二,地址资源的经济收益。升级IPv6 ,可以产生数十亿级别经济收益。

第三,万物互联的基石。下一代网络多为5GAIIoT、大数据等,对于地址需求指数级增长,因此IPv6也是下一代网络互联基石。


二、全栈异步平滑演进

image.png

针对大规模业务、全栈技术演进以及复杂网络生态,我们的升级策略为南北向贯通异步演进,东西向解耦平滑升级。

南北向主要针对端三个层面,东西向主要针对不同业务横向解耦,并进行常态化的运营支撑。

image.png

云底座是 IPv6 贯通核心,因此,首先要打造高性能IPv6云底座。云底座涉及底层机房物理层、虚拟网络层,每一层需要改造的内容均十分繁杂

比如,首先要解决高性能负载均衡网关。IPv4IPv6演进的过程中,有很长一段时间IPv6IPv4并存,需要对两者同时提供支持因此负载均衡网关要支持双挂载,支持4-6平滑演进,而这增加了路由负担。

容器化和 FaaS 是未来的业界趋势,多租户挑战下,大规模路由信息如何保障?双路由会导致会话表规模翻番,长度扩大资源不足情况下,如何得到高性能虚拟网卡?针对以上问题,我们实现了硬件加速双栈智能虚拟网卡。路由时,从原先VM CPU 下放到 FPGA 增加虚拟网卡在路由时的速度和性能,扩充了多级缓存技术,加快路由速度。无论大规模高性能网关还是硬件加速的虚拟网卡,最终都需要落实到具体路由协议进行控制。

因此,我们实现了大规模 IPv6 路由控制方案AliBGP,能够实现动态分组,将同组地址聚合到一起,降低1/N 时延和耗时,能够实现快速流量切换。调度时能够实现业务租户之间隔离,也实现流量隔离,同时支持软件热修复。

image.png

底座升级后,第二个挑战在于如何面对大规模恶意 IPv6 流量安全问题。流量安全是 IPv6 规模化应用保障。首先面临的是如何解决大规模高精度IPv6 地址信息系统问题。一切安全都基于 IPv6地址库,我们IPv6地址基于用户特征账户特征行为特征属性做聚类,与原先的IPv4地址库进行同源配比基于 IPv4 地址库快速建立海量 IPv6 地址库,构建 IPv6 地址库地理信息系统

针对 IPv6应用层恶意流量清洗以及防 IPv6 DDos攻击,我们通过人工智能深度学习以及自动反馈建立智能流量清洗系统。

image.png

IPv6部署初期,基础网络发展不平衡是必经之路,不同路径、不同运营商的IPv6双栈覆盖度不高,且持续演进变化。另外,不同运营商、不同地域、不同网络制式下的网络成功率、时延等质量参数不稳定。为了保障用户体验,我们必须解决管道质量可测量可观测,这也是应用层实现高可基础。

针对以上问题,我们实现了面向管道大规模主动拨测。选择合适的应用地域机型、用户、设备更好地支持 IPv6提前设备做好质量测量标准。基础之上建立全景式管道质量观测平台,更好地支撑业务规模化。

image.png

从端侧协议到业务接入层IPv6贯通与双栈平滑演进是IPv6应用的最后一公里

客户端侧,存在IPv6因报文头过大,IPMSS降低导致大包穿透性降低的问题。统一接入层存在IPv6基础能力缺失,比如 IPv6 to 6 NAT 以及运维方面IPv6地址编码和解析等问题。客户端的痛点主要通过客户端融合网络协议栈来解决,统一接入层在控制面将IPv6能力补齐,实现管道端到端IPv6贯通。

image.png

端侧,我们提供了高性能基础网络库解决移动端高性能网络诉求。移动端高性能网络库是终端用户IPv6体验保障,因此我们需要解决复杂网络体验以及浓度与体验并重问题。

首先,需要解决如何在端上判断IPv6还是双栈支持发包探测会对用户体验带来极大影响因此必须实现本地快速判断,我们通过本地 UDPBinding的方式实现了判断。但本地UDP Binding的判断存在误差需要解决纠偏问题。我们通过系统原生状态通知网关地址判断以及 DNS 地址判断实现本地快速判断

另外,发生问题时,我们提供诊断能力。内置了 HTTP协议PIN协议 TCP 协议不同维度判断 IPv6 本地质量和支持性问题

同时,实现了多连接多通道能力。调度时采用 v6v4 双地址下发,建联时优先使用IPv6,如果无法在 200毫秒以内完成则使IPv4建联过程中参数会根据具体网络情况做细微智能化调整。并在多连接的基础上实现了多通道能力,主要包含两个维度。其一为mptcp能力;其二,在业务应用层也建立了两条通道,在不同情况下会选取不同实现。mptcp 需要服务端支持,而当前国内大部分业务对此并未提供很好的支持因此在应用上更多使用上层双连接实现多通道突破。

image.png

端、管、云均已支持IPv4IPv6平滑演进。但是对业务应用而言,想保障应用高可靠高可用仅仅依靠每一层的栈支持依然不够,需要更完整更可靠控制面控制。因此,我们实现了精细化实时IP 调度系统,使东西向解耦彻底可控,逐步实现业务平滑演进。

该系统可以针对不同业务场景、不同设备类型以及不同网络环境做精细控制。针对大规模精细化实时调度,可以基于设备维度、应用维度、用户维度、版本维度、地域维度等精细化维度实现调度。最初的调度需要依靠人力,后续可逐步演进自反馈系统。

针对大规模业务灾备恢复时间过长的问题,我们基于业务探针在高频业务插入了旁路指令需要调度时,可将调度指令通过高频业务携带给端侧终端,终端快速响应调度服务,最快可达秒级响应。

image.png

另外,我们基于PaaS的核心能力基座实现了端到端完整解决方案,以支撑集团大量 App 快速迁移,包括网络环境感知策略体验融合数据产品以及云端调度服务。

实现了南北向贯通,东西向解耦后,下一步需要实现常态化运营支撑,保证用户浓度和用户体验,并解决日常业务迭代IPv6带来的冲击。

image.png

研发期我们在端侧建立了IPv6环境模拟以及线下工具验证。发版前,基于自研 T-Monkey平台实现了自动化验收。线上运营,对浓度和体验进行监测。最终实现对研发全生命周期管控。

同时在内网, IPv6实现了逐步覆盖。对于大量小业务长尾域名进行逐步清空,并实现流量路径全覆盖,确保IPv6 高浓度不回退,用户体验不劣化


三、规模与体验 image.png

IPv6在阿里巴巴的发展可分为四个阶段:

第一阶段:2016年,IPv6 主要解决苹果 App store 上架审核问题。

第二阶段2017 年中办发布 IPv6规模化部署行动计划,阿里巴巴也 2018 年首次提出了 IPv6 MAU 1 亿的目标。2019年,阿里巴巴集团应用淘宝APP MAU首次破亿。

第三阶段:从面向用户规模转向面向流量占比,重点围绕提升 IPv6 实际应用占比展开,集团淘宝 IPv6 流量占比首次超过60%

第四阶段:提出了IPv6常态化诉求。要求存量业务 IPv6 浓度必须达到80%,增量业务全量支持 IPv6,目前已全面实现并超越目标

image.png

目前,MAU已达13亿+,最高浓度95%以上,集团内 App 200耗时相比于IPv4降低11.4%IPv6成功率已达39


四、未来与展望

image.png

未来,IPv6的演进主要包含以下三个方面:

第一,IPv6-only进行规模化突破。

第二IPv6 P2P 应用。IPv4 最大弊端在内网和外网之间单向导通,其核心障碍地址数不够,中间加了NAT无法直接访问,无法为每一个设备做公网定位。IPv6之后,突破了地址的限制,也可以实现 P2P大突破。

第三,解决应用层大量HTTP/3over IPv6 问题。

lQLPJxbcF2cqM2TM-M0CnrCgW_7LDpyh1wNpqgFKAPsA_670_248.png

 

目录
打赏
0
0
0
0
4751
分享
相关文章
通过阿里云计算巢部署 NVIDIA NIM,加速企业大语言模型 SaaS 化
通过阿里云计算巢部署 NVIDIA NIM,加速企业大语言模型 SaaS 化
云计算与网络安全:技术融合的双刃剑
在数字化浪潮中,云计算如同一股不可阻挡的力量,推动着企业和个人用户步入一个高效、便捷的新时代。然而,随之而来的网络安全问题也如影随形,成为制约云计算发展的阿喀琉斯之踵。本文将探讨云计算服务中的网络安全挑战,揭示信息保护的重要性,并提供实用的安全策略,旨在为读者呈现一场技术与安全的较量,同时指出如何在享受云服务带来的便利的同时,确保数据的安全和隐私。
52 6
云计算与网络安全:技术挑战与解决方案
随着云计算技术的飞速发展,其在各行各业的应用越来越广泛。然而,随之而来的网络安全问题也日益凸显。本文将从云服务、网络安全和信息安全等技术领域出发,探讨云计算面临的安全挑战及相应的解决方案。通过实例分析和代码示例,旨在帮助读者更好地理解云计算与网络安全的关系,提高网络安全防护意识。
云计算与网络安全:技术融合与挑战
在数字化时代的浪潮中,云计算和网络安全已成为推动社会进步的两大关键技术。本文将探讨云计算服务的发展,网络安全的重要性,以及信息安全技术的演进。我们将通过实例分析,揭示云服务如何增强数据保护,网络安全措施如何应对新兴威胁,以及信息安全技术的创新如何为企业带来竞争优势。文章旨在为读者提供对云计算和网络安全领域的深入理解,并展示它们如何共同塑造我们的未来。
云计算与网络安全:云服务、网络安全、信息安全等技术领域的融合与挑战
本文将探讨云计算与网络安全之间的关系,以及它们在云服务、网络安全和信息安全等技术领域中的融合与挑战。我们将分析云计算的优势和风险,以及如何通过网络安全措施来保护数据和应用程序。我们还将讨论如何确保云服务的可用性和可靠性,以及如何处理网络攻击和数据泄露等问题。最后,我们将提供一些关于如何在云计算环境中实现网络安全的建议和最佳实践。
云计算与网络安全:云服务、网络安全、信息安全等技术领域的融合与挑战
随着云计算技术的飞速发展,越来越多的企业和个人开始使用云服务。然而,云计算的广泛应用也带来了一系列网络安全问题。本文将从云服务、网络安全、信息安全等方面探讨云计算与网络安全的关系,分析当前面临的挑战,并提出相应的解决方案。
91 3
云计算与网络安全:技术融合与挑战
本文深入探讨了云计算在提供便捷服务的同时,如何应对日益复杂的网络安全问题。文章首先概述了云计算的基本概念及其服务模型,随后详细分析了网络安全的重要性以及云计算环境中存在的安全挑战。通过具体实例,本文进一步讨论了云服务提供商和用户如何共同维护网络环境的安全,并提出了未来网络安全发展的可能方向。旨在为读者提供一个关于云计算与网络安全相互作用的全面视角,同时强调在这一过程中采取主动防御措施的重要性。
62 1
云计算与网络安全:技术融合的新篇章
随着云计算技术的飞速发展,企业和个人越来越依赖于云服务来存储和处理数据。然而,随之而来的网络安全问题也日益凸显,成为制约云计算发展的关键因素之一。本文将深入探讨云计算与网络安全的关系,分析当前面临的主要安全挑战,并提出相应的解决方案。通过技术创新和安全管理的结合,我们有望构建一个更加安全、可靠的云计算环境。
云计算与网络安全:技术融合下的挑战与机遇
随着云计算技术的飞速发展,网络安全问题也日益凸显。本文将探讨云计算环境下的网络安全挑战,以及如何通过技术创新来应对这些挑战。我们将分析云服务的安全特性,讨论信息安全的最佳实践,并展望未来云计算与网络安全的发展趋势。

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等