满分入选! 阿里云“软硬融合入侵检测卸载方案”亮相ISCA2022

简介: 满分入选! 阿里云“软硬融合入侵检测卸载方案”亮相ISCA2022

首图-图标.png


【阅读原文】戳:满分入选! 阿里云“软硬融合入侵检测卸载方案”亮相ISCA2022


近日,国际体系结构领域顶级会议ISCA 2022公布了今年论文录用结果,阿里云服务器研发团队和云产品安全团队联合提交的论文《Fidas: Fortifying the Cloud via Comprehensive FPGA-based Offloading for Intrusion Detection》以评委满分入选!

论文以云场景下入侵检测系统的硬件加速为研究目标,通过基于FPGA的正则匹配和流量分类的协同加速以及数控分离,在软件灵活度,规则更新敏捷度,加速任务数目和卸载平衡度等方面都比现有方案有显著提升。此项工作全面展示了软硬融合设计在入侵检测等规则复杂领域所具有的优势,并已在阿里云数据中心上规模化产品应用。

1.png

ISCA创办于1973 年是历史悠久的计算机体系结构顶会,全称International Symposium on Computer Architecture(ISCA),由ACM SIGARCH(计算机系统结构特殊兴趣组)和IEEE TCCA(计算机架构技术委员会)联合发起。

ISCA/Micro/HPCA是体系结构领域的三大顶级会议,而ISCA是其中业界公认的影响力最大顶会,论文录取率常年维持在18%左右。历年来,在ISCA上发表的多项研究成果已在计算机和半导体行业广泛应用。


研究背景


入侵检测是云厂商抵御外部网络攻击,保障网络安全的第一道防线。据国际权威机构统计显示,2020年针对云服务的网络攻击就占到了网络攻击总量20%以上,而且占比逐年不断增加,因此入侵检测的防护能力对保障云安全的重要性也日益突出。同时,随着数据中心出口网络带宽的爆炸式增长,入侵检测所需的算力要求也越来越高;单纯靠CPU进行包处理很难达到100Gbps以上的线速。因此现有大型数据中心的入侵检测方案通常是通过硬件加速的方式实现的。

论文从云厂商的视角,首次提出了从四个不同的维度来综合评估入侵检测加速方案, 分别为:软件灵活度、规则更新敏捷度、加速任务数目和卸载平衡度。业界现有侵检测加速方案在这四个维度上或多或少都不尽如人意。如:即使是近期炙手可热的DPU, 就正则匹配而言,它的软件灵活度只能达到中等,因为它依赖于闭源的运行时(Running Time),CSP不能完整掌控整个软件栈,且容易造成供应商锁定(Vendor Lockin);另一方面,针对DDoS类的攻击检测,DPU只能通过P4流水线来间接实现对流量分类(Flow Rate Classification)加速,其性能和吞吐并不令人满意,因此并没有完全实现CSP所期望的平衡卸载。本文提出的Fidas(FPGA-based Instruction Detection Acceleration System)采用了正则匹配和流量分类同步卸载的创新架构,在这四个维度上都很好的满足了CSP的需求。

为什么命名为Fidas

取自FPGA-based Instruction Detection Acceleration System英文全称的缩写,同时在拉丁语中Fidas意为“忠实可信”,正好代表业界对入侵检测业务的价值期望

架构创新


如果我们将业界主流厂商A方案,Pigasus和Fidas放在一起比较(如下图所示),可以发现一个清晰的技术发展脉络——即从厂商A方案的单任务正则匹配卸载,到Pigasus的包含包处理和正则匹配在内的多任务卸载,再到Fidas的综合正则匹配和流量分类同步卸载。从这个视角来看,Fidas实际代表了数据中心入侵检测领域的架构演进方向。事实上,根据STRIDE攻击模型,攻击可分为基于包内容的攻击(如电子欺骗、篡改、否认、信息泄露、特权升级)和基于包时序的攻击(如拒绝服务)。Fidas的综合卸载对这两类攻击的检测都进行了加速和覆盖。

2.png

除了综合卸载的整体架构,Fidas也对正则匹配和流量分类的设计,结合实际部署的痛点进行了创新。在正则匹配上Fidas提出了软硬协同数控分离的面向DevOps的卸载设计模式。它将规则分析和拆解,子规则编排等工作交由软件处理,硬件根据编排好的子规则分级进行匹配,如下左图所示。另一方面,在流量分类上,我们创造性的提出基于Dual-stack的流量分类加速方案,实现了对不同冷热程度流量的高效分类,如下右图所示。

通过这样的设计,我们可以实现在100Gps线速下的正则匹配;同时支持10M流的流量分类而无丢包现象。与传统上采用Hyperscan的Snort相比,在达到相同的匹配吞吐量时,Fidas可以节省30~120个CPU核。这些省下的CPU核可以带来相对应的服务器节省,或者为其他应用提供算力,带来可观的成本降低和性能收益。

3.png

4.png


业务收益和思考


Fidas已经在数据中心上规模化生产部署了两年。本文也对Fidas在实际生产部署中的经验, 总结了以下三点:

●   正则匹配和流量分类的综合卸载给入侵检测的效率提供了合力。具体来说,流量分类的卸载加速为DDoS攻击的检测响应时间减少了100多纳秒,从而更快的将DDoS流量从总流量中移除,这相应的也减少了正则匹配花在处理DDoS流量上的无效处理时间,提高了入侵检测的整体效率。

●   针对DevOps敏捷性的设计是具有很高价值的。在生产过程中,规则更新十分频繁,最短需在一天之内完成;而且整个IDS软件也经历了数次更新,但无需重新更改硬件。这体现了规则预处理和模式匹配解耦的面向DevOps的软硬协同设计在实际生产中带来的价值。

●   一个完全开放的软件栈是CSP采用卸载方案的重要因素。与基于DPU的商业方案相比,自研FPGA方案成本上不具优势,毕竟DPU有规模效应的优势。但是现有主流DPU软件栈并不完全开放,可能依赖于私有的库或运行时;而自研FPGA可以确保整个软件栈的兼容性和可控性,这对CSP来说是一个重要的考量因素。如果未来相关芯片厂商采取更加开放的策略,DPU开放式软件生态才有可能健康成长。

从2020年HPCA/ISCA/MICRO三大顶会全面开花,到HPCA2021梅开二度,再到ISCA2022论文满分入选和Chiplet分论坛的组织,一路走来,记载了阿里云基础设施服务器研发团队深耕基础研究和工程领域、不断精进的足迹。

尤其是近年来基于阿里云软硬协同/融合基础上沉淀形成的磐久基础设施,已成为阿里云飞天操作系统统一高效的硬件基础,包括虚拟化场景下的网络/存储/安全的硬件卸载、存储压缩和Solar-RDMA网络协议的硬件卸载、多媒体/TEE/加解密的硬件卸载,以及计算和存储的软硬件一体的Aliflash等一批软硬融合的产品和解决方案在阿里云数据中心批量部署。通过“硬件软件化”不断释放基础设施硬件能力的红利,阿里云正通过“软件产品硬件化”持续给客户提供更好、更佳的性能体验。



我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~ 

相关文章
|
22天前
|
机器学习/深度学习 人工智能 算法
【AAAI 2024】再创佳绩!阿里云人工智能平台PAI多篇论文入选
阿里云人工智能平台PAI发表的多篇论文在AAAI-2024上正式亮相发表。AAAI是由国际人工智能促进协会主办的年会,是人工智能领域中历史最悠久、涵盖内容最广泛的国际顶级学术会议之一,也是中国计算机学会(CCF)推荐的A类国际学术会议。论文成果是阿里云与浙江大学、华南理工大学联合培养项目等共同研发,深耕以通用人工智能(AGI)为目标的一系列基础科学与工程问题,包括多模态理解模型、小样本类增量学习、深度表格学习和文档版面此次入选意味着阿里云人工智能平台PAI自研的深度学习算法达到了全球业界先进水平,获得了国际学者的认可,展现了阿里云人工智能技术创新在国际上的竞争力。
|
22天前
|
大数据 数据中心 云计算
连续4年 阿里云液冷技术论文入选DesignCon 2024和ECTC 2024
连续4年 阿里云液冷技术论文入选DesignCon 2024和ECTC 2024
|
22天前
|
存储 数据库 Python
阿里云向量检索服务 | 全性能搜索方案
【1月更文挑战第13天】阿里云向量检索服务 | 全性能搜索方案
阿里云向量检索服务 | 全性能搜索方案
|
3天前
|
边缘计算 安全 人工智能
|
11天前
|
弹性计算 安全 微服务
【阿里云云原生专栏】容器网络技术前沿:阿里云Terway网络方案详解
【5月更文挑战第26天】阿里云Terway是高性能的容器网络方案,基于ECS的ENI实现,提供低延迟高吞吐的网络服务。它简化网络管理,实现安全隔离,并与阿里云服务无缝集成。Terway由CNI、Node和Controller组成,适用于微服务、混合云和多租户环境,为企业数字化转型中的复杂网络需求提供强大支持。
172 1
|
14天前
|
Kubernetes Cloud Native Devops
【阿里云云原生专栏】DevOps与云原生的融合:阿里云CI/CD流水线最佳实践
【5月更文挑战第23天】阿里云融合DevOps与云原生技术,提供高效CI/CD解决方案,助力企业提升研发效能。通过云效平台,集成代码管理、构建服务、容器服务、持续部署及监控日志组件,实现自动化研发流程。案例中,应用从GitHub构建到Kubernetes部署,全程无缝衔接。借助阿里云,企业能快速构建适应云原生的DevOps体系,以应对复杂需求和提升市场竞争力。
66 1
|
14天前
|
自然语言处理 监控 Cloud Native
对话阿里云云原生产品负责人李国强:推进可观测产品与OpenTelemetry开源生态全面融合
阿里云宣布多款可观测产品全面升级,其中,应用实时监控服务 ARMS 在业内率先推进了与 OpenTelemetry 开源生态的全面融合,极大丰富了可观测的数据类型及规模,大幅增强了 ARMS 核心能力。本次阿里云 ARMS 产品全面升级的背景是什么?为什么会产生围绕 OpenTelemetry 进行产品演进的核心策略?在云原生、大模型等新型应用架构类型层出不穷的今天,又将如何为企业解决新的挑战?阿里云云原生应用平台产品负责人李国强接受采访解答了这些疑问,点击本文走进全新升级的阿里云可观测产品。
41727 7
|
16天前
|
弹性计算 Kubernetes Cloud Native
【阿里云弹性计算】阿里云ECS与容器技术融合:打造敏捷的云原生基础设施
【5月更文挑战第21天】阿里云ECS结合容器技术(如Docker和Kubernetes),助力企业构建敏捷云原生基础设施。ECS提供高性能服务器,支持容器快速部署和自动化管理,实现应用的高可用性和可维护性。通过二者协同,企业能打造高效、可扩展的应用,加速数字化转型。示例代码展示了在ECS上使用Docker和Kubernetes部署云原生应用的过程。
67 3
|
22天前
|
机器学习/深度学习 人工智能 弹性计算
阿里云GPU云服务器有哪些方案
阿里云GPU云服务器有哪些方案
|
22天前
|
存储 消息中间件 运维
友盟+|如何通过阿里云Flink+Paimon实现流式湖仓落地方案
本文主要分享友盟+ U-App 整体的技术架构,以及在实时和离线计算上面的优化方案。
392 2
友盟+|如何通过阿里云Flink+Paimon实现流式湖仓落地方案