2022云栖精选—阿里巴巴应用IPv6规模化部署 面向云计算与互联网业务的IPv6技术研发及应用

简介: 徐杰(无宸)阿里巴巴集团技术平台高级无线研发专家

lQLPJxbcF2cqNBvMiM0FeLCMz4ifcSGHeANpqgFLAEAA_1400_136.png

一、网络基石升级的挑战

image.png

网络是互联网的水电煤,而IP 是网络基石。因此,我们IPv6 IPv4的演进称为网络基石升级。

阿里 IPv6 升级过程中,首先面临的是超大业务规模的影响,影响范围覆盖了电商、文娱、物流 20 多个业务集团内外 5000+ App 数量以及10w+云产品和基础设施基础网设备。而以上影响会导致数百亿级别的资损、用户体验损伤以及服务崩溃。

image.png

同时,技术上也会面临非常复杂规模,从端到管到云到用,南北向涉及全链路、全栈的演进东西向涉及到不同业务系统,影响规模非常广。

image.png

此外我们面对复杂网络生态环境。网络生态既有设备端网络环境,也有基础运营商。设备端会面临不同平台不同厂商网络环境保障设备应用问题,另外,我们需要磨平不同运营商和地域之间的差异,保障用户体验统一性,以及避免IPv6统一升级之后带网络风险

image.png

IPv6的升级不仅仅是地址从32位升级到128位,还包括三个更深层次的含义:

第一,国家强网战略。希望在网络规模用户规模以及流量规模上全部实现全球第一。

第二,地址资源的经济收益。升级IPv6 ,可以产生数十亿级别经济收益。

第三,万物互联的基石。下一代网络多为5GAIIoT、大数据等,对于地址需求指数级增长,因此IPv6也是下一代网络互联基石。


二、全栈异步平滑演进

image.png

针对大规模业务、全栈技术演进以及复杂网络生态,我们的升级策略为南北向贯通异步演进,东西向解耦平滑升级。

南北向主要针对端三个层面,东西向主要针对不同业务横向解耦,并进行常态化的运营支撑。

image.png

云底座是 IPv6 贯通核心,因此,首先要打造高性能IPv6云底座。云底座涉及底层机房物理层、虚拟网络层,每一层需要改造的内容均十分繁杂

比如,首先要解决高性能负载均衡网关。IPv4IPv6演进的过程中,有很长一段时间IPv6IPv4并存,需要对两者同时提供支持因此负载均衡网关要支持双挂载,支持4-6平滑演进,而这增加了路由负担。

容器化和 FaaS 是未来的业界趋势,多租户挑战下,大规模路由信息如何保障?双路由会导致会话表规模翻番,长度扩大资源不足情况下,如何得到高性能虚拟网卡?针对以上问题,我们实现了硬件加速双栈智能虚拟网卡。路由时,从原先VM CPU 下放到 FPGA 增加虚拟网卡在路由时的速度和性能,扩充了多级缓存技术,加快路由速度。无论大规模高性能网关还是硬件加速的虚拟网卡,最终都需要落实到具体路由协议进行控制。

因此,我们实现了大规模 IPv6 路由控制方案AliBGP,能够实现动态分组,将同组地址聚合到一起,降低1/N 时延和耗时,能够实现快速流量切换。调度时能够实现业务租户之间隔离,也实现流量隔离,同时支持软件热修复。

image.png

底座升级后,第二个挑战在于如何面对大规模恶意 IPv6 流量安全问题。流量安全是 IPv6 规模化应用保障。首先面临的是如何解决大规模高精度IPv6 地址信息系统问题。一切安全都基于 IPv6地址库,我们IPv6地址基于用户特征账户特征行为特征属性做聚类,与原先的IPv4地址库进行同源配比基于 IPv4 地址库快速建立海量 IPv6 地址库,构建 IPv6 地址库地理信息系统

针对 IPv6应用层恶意流量清洗以及防 IPv6 DDos攻击,我们通过人工智能深度学习以及自动反馈建立智能流量清洗系统。

image.png

IPv6部署初期,基础网络发展不平衡是必经之路,不同路径、不同运营商的IPv6双栈覆盖度不高,且持续演进变化。另外,不同运营商、不同地域、不同网络制式下的网络成功率、时延等质量参数不稳定。为了保障用户体验,我们必须解决管道质量可测量可观测,这也是应用层实现高可基础。

针对以上问题,我们实现了面向管道大规模主动拨测。选择合适的应用地域机型、用户、设备更好地支持 IPv6提前设备做好质量测量标准。基础之上建立全景式管道质量观测平台,更好地支撑业务规模化。

image.png

从端侧协议到业务接入层IPv6贯通与双栈平滑演进是IPv6应用的最后一公里

客户端侧,存在IPv6因报文头过大,IPMSS降低导致大包穿透性降低的问题。统一接入层存在IPv6基础能力缺失,比如 IPv6 to 6 NAT 以及运维方面IPv6地址编码和解析等问题。客户端的痛点主要通过客户端融合网络协议栈来解决,统一接入层在控制面将IPv6能力补齐,实现管道端到端IPv6贯通。

image.png

端侧,我们提供了高性能基础网络库解决移动端高性能网络诉求。移动端高性能网络库是终端用户IPv6体验保障,因此我们需要解决复杂网络体验以及浓度与体验并重问题。

首先,需要解决如何在端上判断IPv6还是双栈支持发包探测会对用户体验带来极大影响因此必须实现本地快速判断,我们通过本地 UDPBinding的方式实现了判断。但本地UDP Binding的判断存在误差需要解决纠偏问题。我们通过系统原生状态通知网关地址判断以及 DNS 地址判断实现本地快速判断

另外,发生问题时,我们提供诊断能力。内置了 HTTP协议PIN协议 TCP 协议不同维度判断 IPv6 本地质量和支持性问题

同时,实现了多连接多通道能力。调度时采用 v6v4 双地址下发,建联时优先使用IPv6,如果无法在 200毫秒以内完成则使IPv4建联过程中参数会根据具体网络情况做细微智能化调整。并在多连接的基础上实现了多通道能力,主要包含两个维度。其一为mptcp能力;其二,在业务应用层也建立了两条通道,在不同情况下会选取不同实现。mptcp 需要服务端支持,而当前国内大部分业务对此并未提供很好的支持因此在应用上更多使用上层双连接实现多通道突破。

image.png

端、管、云均已支持IPv4IPv6平滑演进。但是对业务应用而言,想保障应用高可靠高可用仅仅依靠每一层的栈支持依然不够,需要更完整更可靠控制面控制。因此,我们实现了精细化实时IP 调度系统,使东西向解耦彻底可控,逐步实现业务平滑演进。

该系统可以针对不同业务场景、不同设备类型以及不同网络环境做精细控制。针对大规模精细化实时调度,可以基于设备维度、应用维度、用户维度、版本维度、地域维度等精细化维度实现调度。最初的调度需要依靠人力,后续可逐步演进自反馈系统。

针对大规模业务灾备恢复时间过长的问题,我们基于业务探针在高频业务插入了旁路指令需要调度时,可将调度指令通过高频业务携带给端侧终端,终端快速响应调度服务,最快可达秒级响应。

image.png

另外,我们基于PaaS的核心能力基座实现了端到端完整解决方案,以支撑集团大量 App 快速迁移,包括网络环境感知策略体验融合数据产品以及云端调度服务。

实现了南北向贯通,东西向解耦后,下一步需要实现常态化运营支撑,保证用户浓度和用户体验,并解决日常业务迭代IPv6带来的冲击。

image.png

研发期我们在端侧建立了IPv6环境模拟以及线下工具验证。发版前,基于自研 T-Monkey平台实现了自动化验收。线上运营,对浓度和体验进行监测。最终实现对研发全生命周期管控。

同时在内网, IPv6实现了逐步覆盖。对于大量小业务长尾域名进行逐步清空,并实现流量路径全覆盖,确保IPv6 高浓度不回退,用户体验不劣化


三、规模与体验 image.png

IPv6在阿里巴巴的发展可分为四个阶段:

第一阶段:2016年,IPv6 主要解决苹果 App store 上架审核问题。

第二阶段2017 年中办发布 IPv6规模化部署行动计划,阿里巴巴也 2018 年首次提出了 IPv6 MAU 1 亿的目标。2019年,阿里巴巴集团应用淘宝APP MAU首次破亿。

第三阶段:从面向用户规模转向面向流量占比,重点围绕提升 IPv6 实际应用占比展开,集团淘宝 IPv6 流量占比首次超过60%

第四阶段:提出了IPv6常态化诉求。要求存量业务 IPv6 浓度必须达到80%,增量业务全量支持 IPv6,目前已全面实现并超越目标

image.png

目前,MAU已达13亿+,最高浓度95%以上,集团内 App 200耗时相比于IPv4降低11.4%IPv6成功率已达39


四、未来与展望

image.png

未来,IPv6的演进主要包含以下三个方面:

第一,IPv6-only进行规模化突破。

第二IPv6 P2P 应用。IPv4 最大弊端在内网和外网之间单向导通,其核心障碍地址数不够,中间加了NAT无法直接访问,无法为每一个设备做公网定位。IPv6之后,突破了地址的限制,也可以实现 P2P大突破。

第三,解决应用层大量HTTP/3over IPv6 问题。

lQLPJxbcF2cqM2TM-M0CnrCgW_7LDpyh1wNpqgFKAPsA_670_248.png

 

相关文章
|
5天前
|
人工智能 边缘计算 物联网
云计算的未来:五大趋势与技术变革
【6月更文挑战第25天】云计算未来五大趋势: 1. 边缘计算与物联网结合,减少延迟,增强实时性。 2. AI与云计算融合,提升智能服务效率。 3. 量子计算的潜力,革新云计算处理能力。 4. 混合云和多云策略成主流,提供灵活安全选项。 5. 可持续性发展,绿色云计算降低环境影响。
|
1天前
|
存储 缓存 运维
云计算中的服务器选型与配置:技术深度解析
【6月更文挑战第29天】云计算服务器选型与配置深度解析:关注业务需求、技术要求及成本效益。重点包括CPU、内存、存储和网络配置的优化,结合负载均衡、缓存、虚拟化和自动化运维策略,以提升性能和效率,确保云服务的稳定与高效。
|
7天前
|
云安全 安全 网络安全
云计算与网络安全:技术演进与挑战
【6月更文挑战第22天】在数字化浪潮的推动下,云计算已成为企业信息技术架构的核心。然而,随着云服务的普及,网络安全问题也日益凸显。本文将探讨云计算环境下的网络安全挑战,分析当前云服务中存在的安全风险,并介绍信息安全的最佳实践和未来发展趋势。通过深入分析,旨在为读者提供对云计算与网络安全交织领域的全面理解。
|
3天前
|
存储 安全 网络安全
云计算与网络安全:技术融合与挑战
【6月更文挑战第26天】本文深入探讨了云计算与网络安全之间的复杂关系,并分析了云服务在提升信息安全的同时所带来的新挑战。文章首先概述了云计算的基本概念及其在现代企业中的重要性,随后详细讨论了网络安全的关键问题和信息安全的核心策略。通过对比分析,揭示了云计算环境中的安全威胁,并提出了相应的防御措施。最后,文章强调了持续的技术革新和安全意识提升对于保障云计算环境安全的重要性。
|
7天前
|
机器学习/深度学习 安全 网络安全
云计算与网络安全:技术融合的未来之路
【6月更文挑战第22天】在数字化浪潮的推动下,云计算已成为企业信息技术架构的核心。然而,随着云服务的广泛采纳,网络安全问题也日益凸显。本文将探讨云计算与网络安全之间的相互作用,分析当前云服务中存在的安全挑战,并提出相应的解决策略。我们将深入讨论数据加密、访问控制、威胁检测等关键技术,并展望未来云计算和网络安全技术的发展趋势,以期为业界提供参考和指导。
25 7
|
6天前
|
人工智能 安全 网络安全
云计算与网络安全:技术挑战与未来趋势
在数字化时代,云计算成为推动企业增长的关键动力,但随之而来的网络安全问题也不断浮现。本文深入探讨了云计算服务中的安全挑战,分析了当前信息安全技术的发展趋势,并提出了加强云环境下的网络安全策略。通过案例分析,本文旨在为读者提供对云计算与网络安全交叉领域的深刻洞察,并预测未来的发展方向。
|
3天前
|
机器学习/深度学习 安全 网络安全
云计算与网络安全:技术融合下的安全挑战与对策
在数字化浪潮的推动下,云计算服务已成为企业和个人存储、处理数据的优选方案。然而,随着云服务的普及,网络安全问题也愈发凸显。本文将深入探讨云计算环境下的网络安全挑战,并基于最新的科学研究和统计数据,分析信息安全领域的应对策略。文章旨在为读者提供一套科学严谨、数据支撑的安全框架,以保障云计算环境中的数据安全。
|
5天前
|
云安全 安全 网络安全
云计算与网络安全:技术挑战与未来展望
【6月更文挑战第24天】本文深入探讨了云计算在现代社会的广泛应用,并分析了随之而来的网络安全挑战。文章首先概述了云计算的基本概念及其服务模型,随后详细讨论了云环境中的安全威胁和防御策略。通过案例分析,本文揭示了云服务供应商和用户在保障信息安全方面的最佳实践,最后展望了云计算和网络安全的未来发展趋势,强调了技术创新和政策制定的重要性。
15 2
|
6天前
|
云安全 安全 网络安全
云计算与网络安全:技术融合下的挑战与对策
本文旨在探讨云计算环境下的网络安全问题,分析云服务模式对信息安全的影响,并针对当前云安全面临的挑战提出有效的应对策略。文章将深入讨论数据加密、身份认证、访问控制等关键技术的应用,并通过案例分析,展示如何在云计算环境中构建一个多层次、全方位的安全防护体系。
|
6天前
|
存储 安全 定位技术
云计算在远程办公与协作平台中的应用与挑战是一个热门话题。
云计算在远程办公与协作平台中的应用与挑战是一个热门话题。
10 1