2022云栖精选—阿里巴巴应用IPv6规模化部署 面向云计算与互联网业务的IPv6技术研发及应用

简介: 徐杰(无宸)阿里巴巴集团技术平台高级无线研发专家

lQLPJxbcF2cqNBvMiM0FeLCMz4ifcSGHeANpqgFLAEAA_1400_136.png

一、网络基石升级的挑战

image.png

网络是互联网的水电煤,而IP 是网络基石。因此,我们IPv6 IPv4的演进称为网络基石升级。

阿里 IPv6 升级过程中,首先面临的是超大业务规模的影响,影响范围覆盖了电商、文娱、物流 20 多个业务集团内外 5000+ App 数量以及10w+云产品和基础设施基础网设备。而以上影响会导致数百亿级别的资损、用户体验损伤以及服务崩溃。

image.png

同时,技术上也会面临非常复杂规模,从端到管到云到用,南北向涉及全链路、全栈的演进东西向涉及到不同业务系统,影响规模非常广。

image.png

此外我们面对复杂网络生态环境。网络生态既有设备端网络环境,也有基础运营商。设备端会面临不同平台不同厂商网络环境保障设备应用问题,另外,我们需要磨平不同运营商和地域之间的差异,保障用户体验统一性,以及避免IPv6统一升级之后带网络风险

image.png

IPv6的升级不仅仅是地址从32位升级到128位,还包括三个更深层次的含义:

第一,国家强网战略。希望在网络规模用户规模以及流量规模上全部实现全球第一。

第二,地址资源的经济收益。升级IPv6 ,可以产生数十亿级别经济收益。

第三,万物互联的基石。下一代网络多为5GAIIoT、大数据等,对于地址需求指数级增长,因此IPv6也是下一代网络互联基石。


二、全栈异步平滑演进

image.png

针对大规模业务、全栈技术演进以及复杂网络生态,我们的升级策略为南北向贯通异步演进,东西向解耦平滑升级。

南北向主要针对端三个层面,东西向主要针对不同业务横向解耦,并进行常态化的运营支撑。

image.png

云底座是 IPv6 贯通核心,因此,首先要打造高性能IPv6云底座。云底座涉及底层机房物理层、虚拟网络层,每一层需要改造的内容均十分繁杂

比如,首先要解决高性能负载均衡网关。IPv4IPv6演进的过程中,有很长一段时间IPv6IPv4并存,需要对两者同时提供支持因此负载均衡网关要支持双挂载,支持4-6平滑演进,而这增加了路由负担。

容器化和 FaaS 是未来的业界趋势,多租户挑战下,大规模路由信息如何保障?双路由会导致会话表规模翻番,长度扩大资源不足情况下,如何得到高性能虚拟网卡?针对以上问题,我们实现了硬件加速双栈智能虚拟网卡。路由时,从原先VM CPU 下放到 FPGA 增加虚拟网卡在路由时的速度和性能,扩充了多级缓存技术,加快路由速度。无论大规模高性能网关还是硬件加速的虚拟网卡,最终都需要落实到具体路由协议进行控制。

因此,我们实现了大规模 IPv6 路由控制方案AliBGP,能够实现动态分组,将同组地址聚合到一起,降低1/N 时延和耗时,能够实现快速流量切换。调度时能够实现业务租户之间隔离,也实现流量隔离,同时支持软件热修复。

image.png

底座升级后,第二个挑战在于如何面对大规模恶意 IPv6 流量安全问题。流量安全是 IPv6 规模化应用保障。首先面临的是如何解决大规模高精度IPv6 地址信息系统问题。一切安全都基于 IPv6地址库,我们IPv6地址基于用户特征账户特征行为特征属性做聚类,与原先的IPv4地址库进行同源配比基于 IPv4 地址库快速建立海量 IPv6 地址库,构建 IPv6 地址库地理信息系统

针对 IPv6应用层恶意流量清洗以及防 IPv6 DDos攻击,我们通过人工智能深度学习以及自动反馈建立智能流量清洗系统。

image.png

IPv6部署初期,基础网络发展不平衡是必经之路,不同路径、不同运营商的IPv6双栈覆盖度不高,且持续演进变化。另外,不同运营商、不同地域、不同网络制式下的网络成功率、时延等质量参数不稳定。为了保障用户体验,我们必须解决管道质量可测量可观测,这也是应用层实现高可基础。

针对以上问题,我们实现了面向管道大规模主动拨测。选择合适的应用地域机型、用户、设备更好地支持 IPv6提前设备做好质量测量标准。基础之上建立全景式管道质量观测平台,更好地支撑业务规模化。

image.png

从端侧协议到业务接入层IPv6贯通与双栈平滑演进是IPv6应用的最后一公里

客户端侧,存在IPv6因报文头过大,IPMSS降低导致大包穿透性降低的问题。统一接入层存在IPv6基础能力缺失,比如 IPv6 to 6 NAT 以及运维方面IPv6地址编码和解析等问题。客户端的痛点主要通过客户端融合网络协议栈来解决,统一接入层在控制面将IPv6能力补齐,实现管道端到端IPv6贯通。

image.png

端侧,我们提供了高性能基础网络库解决移动端高性能网络诉求。移动端高性能网络库是终端用户IPv6体验保障,因此我们需要解决复杂网络体验以及浓度与体验并重问题。

首先,需要解决如何在端上判断IPv6还是双栈支持发包探测会对用户体验带来极大影响因此必须实现本地快速判断,我们通过本地 UDPBinding的方式实现了判断。但本地UDP Binding的判断存在误差需要解决纠偏问题。我们通过系统原生状态通知网关地址判断以及 DNS 地址判断实现本地快速判断

另外,发生问题时,我们提供诊断能力。内置了 HTTP协议PIN协议 TCP 协议不同维度判断 IPv6 本地质量和支持性问题

同时,实现了多连接多通道能力。调度时采用 v6v4 双地址下发,建联时优先使用IPv6,如果无法在 200毫秒以内完成则使IPv4建联过程中参数会根据具体网络情况做细微智能化调整。并在多连接的基础上实现了多通道能力,主要包含两个维度。其一为mptcp能力;其二,在业务应用层也建立了两条通道,在不同情况下会选取不同实现。mptcp 需要服务端支持,而当前国内大部分业务对此并未提供很好的支持因此在应用上更多使用上层双连接实现多通道突破。

image.png

端、管、云均已支持IPv4IPv6平滑演进。但是对业务应用而言,想保障应用高可靠高可用仅仅依靠每一层的栈支持依然不够,需要更完整更可靠控制面控制。因此,我们实现了精细化实时IP 调度系统,使东西向解耦彻底可控,逐步实现业务平滑演进。

该系统可以针对不同业务场景、不同设备类型以及不同网络环境做精细控制。针对大规模精细化实时调度,可以基于设备维度、应用维度、用户维度、版本维度、地域维度等精细化维度实现调度。最初的调度需要依靠人力,后续可逐步演进自反馈系统。

针对大规模业务灾备恢复时间过长的问题,我们基于业务探针在高频业务插入了旁路指令需要调度时,可将调度指令通过高频业务携带给端侧终端,终端快速响应调度服务,最快可达秒级响应。

image.png

另外,我们基于PaaS的核心能力基座实现了端到端完整解决方案,以支撑集团大量 App 快速迁移,包括网络环境感知策略体验融合数据产品以及云端调度服务。

实现了南北向贯通,东西向解耦后,下一步需要实现常态化运营支撑,保证用户浓度和用户体验,并解决日常业务迭代IPv6带来的冲击。

image.png

研发期我们在端侧建立了IPv6环境模拟以及线下工具验证。发版前,基于自研 T-Monkey平台实现了自动化验收。线上运营,对浓度和体验进行监测。最终实现对研发全生命周期管控。

同时在内网, IPv6实现了逐步覆盖。对于大量小业务长尾域名进行逐步清空,并实现流量路径全覆盖,确保IPv6 高浓度不回退,用户体验不劣化


三、规模与体验 image.png

IPv6在阿里巴巴的发展可分为四个阶段:

第一阶段:2016年,IPv6 主要解决苹果 App store 上架审核问题。

第二阶段2017 年中办发布 IPv6规模化部署行动计划,阿里巴巴也 2018 年首次提出了 IPv6 MAU 1 亿的目标。2019年,阿里巴巴集团应用淘宝APP MAU首次破亿。

第三阶段:从面向用户规模转向面向流量占比,重点围绕提升 IPv6 实际应用占比展开,集团淘宝 IPv6 流量占比首次超过60%

第四阶段:提出了IPv6常态化诉求。要求存量业务 IPv6 浓度必须达到80%,增量业务全量支持 IPv6,目前已全面实现并超越目标

image.png

目前,MAU已达13亿+,最高浓度95%以上,集团内 App 200耗时相比于IPv4降低11.4%IPv6成功率已达39


四、未来与展望

image.png

未来,IPv6的演进主要包含以下三个方面:

第一,IPv6-only进行规模化突破。

第二IPv6 P2P 应用。IPv4 最大弊端在内网和外网之间单向导通,其核心障碍地址数不够,中间加了NAT无法直接访问,无法为每一个设备做公网定位。IPv6之后,突破了地址的限制,也可以实现 P2P大突破。

第三,解决应用层大量HTTP/3over IPv6 问题。

lQLPJxbcF2cqM2TM-M0CnrCgW_7LDpyh1wNpqgFKAPsA_670_248.png

 

相关文章
|
4天前
|
存储 安全 网络安全
云计算与网络安全:技术融合与挑战
【9月更文挑战第6天】随着互联网技术的飞速发展,云计算已成为企业和个人数据存储和处理的首选方案。然而,云服务的安全性问题也日益凸显。本文将深入探讨云计算环境下的网络安全挑战,包括数据泄露、身份验证、访问控制等关键问题,并提供相应的解决策略。通过分析云服务模型、网络攻击手段及防御机制,我们旨在为读者提供一套完整的云计算安全指南。
|
5天前
|
存储 安全 网络安全
云计算与网络安全:云服务、网络安全、信息安全等技术领域的探讨
【9月更文挑战第5天】云计算作为一种新兴的计算模式,已经在全球范围内得到了广泛的应用。然而,随着云计算的快速发展,网络安全问题也日益凸显。本文将从云服务、网络安全、信息安全等方面对云计算与网络安全进行探讨。
39 15
|
1天前
|
存储 安全 网络安全
云计算与网络安全:技术演进与挑战
【9月更文挑战第9天】在数字时代的浪潮中,云计算作为信息技术的一股强大力量,正不断重塑着企业和个人的工作与生活方式。然而,随着云服务的普及和深入,网络安全问题也日益成为制约其发展的关键因素。本文将探讨云计算服务的基本概念、网络安全的重要性以及信息安全技术的发展趋势,旨在为读者提供一个关于云计算与网络安全交织演进的宏观视角,并引发对如何在享受云服务便利的同时保障信息安全的深层次思考。
|
6天前
|
存储 安全 网络安全
云计算与网络安全:技术融合与挑战
随着云计算的迅速发展,网络安全问题日益凸显。本文探讨了云计算与网络安全的关系,分析了云服务在提供便利的同时可能带来的安全风险,并提出了相应的防护措施。文章旨在帮助读者理解云计算环境下的网络安全挑战,并提供实用的信息安全策略。
|
7天前
|
存储 安全 网络安全
云计算与网络安全:技术融合与风险防范
【9月更文挑战第3天】本文深入探讨了云计算与网络安全之间的紧密联系,揭示了云服务在提升企业效率的同时可能带来的安全隐患。文章首先介绍了云计算的基础知识,包括其定义、服务模型和部署类型,随后详细分析了网络安全的重要性以及云计算环境下的安全挑战。通过阐述网络攻击的常见方式,本文进一步讨论了如何在云环境中实施有效的安全策略,包括数据加密、访问控制等措施。最后,文章总结了云计算与网络安全的相互影响,并提出了未来研究方向,旨在为读者提供对这一复杂而重要领域的深刻理解。
|
9天前
|
存储 安全 网络安全
云计算与网络安全:探索云服务中的信息安全技术
【9月更文挑战第2天】在数字化时代,云计算成为推动企业创新和效率的关键力量。然而,随之而来的网络安全挑战也日益严峻。本文将深入探讨云计算环境下的网络安全问题,分析云服务中的安全风险,并提供有效的信息安全策略。我们将通过实际案例,展示如何在享受云计算带来的便利的同时,保护数据不受威胁。无论你是IT专业人士还是对云计算感兴趣的读者,这篇文章都将为你提供宝贵的见解和建议。
|
8天前
|
存储 安全 网络安全
云计算与网络安全:云服务、网络安全、信息安全等技术领域的探讨
【9月更文挑战第3天】本文将探讨云计算与网络安全的关系,包括云服务、网络安全、信息安全等技术领域。我们将分析云计算在网络安全方面的挑战和机遇,并介绍一些常见的网络安全技术和实践。最后,我们将提供一些代码示例来说明如何保护云计算环境中的数据安全。
|
9天前
|
存储 安全 网络安全
云计算与网络安全:技术挑战与应对策略
【9月更文挑战第2天】本文将深入探讨云计算与网络安全的关系,分析云服务、网络安全、信息安全等技术领域的技术挑战,并提出相应的应对策略。文章将从云服务的基本原理出发,介绍其安全性问题,然后详细讨论网络安全和信息安全的关键技术和挑战,最后给出一些实用的安全措施和建议。
|
11天前
|
存储 安全 网络安全
云计算与网络安全:探索云服务中的信息安全技术
【8月更文挑战第31天】随着云计算技术的飞速发展,越来越多的企业和个人选择将数据和应用程序迁移到云端。然而,这也带来了新的安全挑战。本文将深入探讨云计算与网络安全之间的关系,重点分析云服务中的信息安全技术,并提供代码示例以帮助读者更好地理解和应对这些挑战。
|
11天前
|
监控 安全 网络安全
云计算与网络安全:云服务、网络安全、信息安全等技术领域的探讨
【8月更文挑战第31天】在数字化时代的浪潮中,云计算以其高效、便捷的特性成为企业IT架构的首选。然而,随之而来的网络安全问题也日益凸显。本文将深入探讨云计算环境下的网络安全挑战,分析云服务的安全特性,并提出相应的信息安全策略。我们将通过实际代码示例,展示如何在云环境中实现数据加密和访问控制,以增强信息的安全性。文章旨在为读者提供云计算与网络安全领域的实用知识,帮助构建更安全的信息系统。