理论用于实践!华为配置管理研究获SIGCOMM 2022最佳论文奖(2)

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: 理论用于实践!华为配置管理研究获SIGCOMM 2022最佳论文奖

在命令互关系级层面,NAssim Validator 利用配置手册的配置样例推理出配置命令间的层级关系。设备配置模型的配置命令通常为树状结构,但许多配置手册并未显式展示配置层级结构的信息。然而,解析配置语料中的配置样例部分却隐式包含了层级结构的信息。配置样例通常是当前配置命令模版的实例化片段,片段中也包含当前配置命令的父命令。因此通过配置实例和配置模版的匹配,可以推导出配置命令模版之间的层级关系,如下图所示。


要实现配置命令层级关系的推导,需要一个基础算法能力:确定一个配置实例是否和一个配置命令模版匹配。因此研究者分别设计了 “配置命令图模型构造算法” 和“基于配置命令图模型的配置实例 - 模版匹配算法”(如下图),高效支撑基于配置样例的配置命令层级结构的推理算法。


 由于配置手册中存在的歧义性错误,上述配置命令层级结构推理算法有时无法完全保证构建出完整层级结构。如下图 7 所示,两个工作视图共享一个配置样例,因此无法完全确定 msdp 命令是进入第一个视图的父命令、或是进入第二个视图或者两者皆可。因此,研究者进一步设计了针对每个层级视图的推理的可靠性的衡量步骤,并记录可能存在歧义的推理,交由运维工程师进行针对性审阅。


在命令片段级,NAssim Validator 进一步利用现网配置文件,对设备配置模型进行校验。相比于配置手册中的信息,现网配置文件具有正确性保障。如下图 8 所示,对于每个配置文件中的每行配置实例和其上层配置命令,检查它们是否能在给予配置手册构建的设备配置模型中找到对应的配置模版,并构成正确层级关系。


经过解析器框架和校验器,NAssim 系统从配置手册中提取出了富含语义信息的精确可靠的设备配置模型。

在配置模型映射阶段,NAssim 的目标是将设备原生配置模型和控制器的统一配置模型进行语义映射。如下图 9 所示,配置模型映射阶段的核心设计是映射器(Mapper)。


NAssim 映射器(Mapper)

前述的解析器框架 + 校验器生成了富含语义信息的设备配置模型(VDM),运维工程师在定义控制器的统一配置模型(UDM)时,通常会给其每一配置项添加自然语言描述,便于运维团队使用。因此, NAssim 映射器的核心设计思想是利用自然语言处理领域的最新技术,设计并训练强大的配置语义理解模型,基于两个异构配置模型上的配置语义信息,进行自动化推理和映射

如上图 9 所示, 映射器的工作流程分为三个步骤:配置语义上下文提取,配置语义编码,和配置语义相似度计算和映射。

在配置语义上下文提取部分,对设备原生配置模型,实验中发现比较重要的语义信息包含配置参数名字和对应描述、参数所在的配置命令模版和其功能描述以及工作视图。对于统一配置模型,则可提取每个配置项的描述信息。不同配置模型可以提取不同数量的文本信息作为配置语义上下文。

在配置语义编码部分,NAssim 映射器采用了 state-of-the-art 的语义编码器 BERT。对于一个自然语言描述的文本序列,BERT 基于 Transformer 架构输出其在向量空间的嵌入表征。由于不同配置模型可以提取不同数量的配置语义上下文,因此 NAssim 映射器会使用 BERT 对每个信息进行单独编码,输出嵌入向量矩阵。

在配置语义相似度计算和映射部分,对于来自不同配置模型上的一对配置参数项,NAssim 映射器衡量它们对应的嵌入向量矩阵的行式余弦相似度来计算其配置语义相似度,进一步通过配置语义相似度排序来进行映射推荐。

NAssim 映射器的核心是通过对预训练模型 SBERT 进行网络配置领域适应后得到的配置语义理解 AI 模型 NetBERT。SBERT 是基于 BERT 的孪生网络,并在大型自然语言推理数据集上,以句子匹配度为目标进行训练。SBERT 可以把语义相似的自然语言文本映射到向量空间里相近的向量。但是对于训练语料中未出现的领域,比如网络配置描述,模型的效果会打折扣。因此,NAssim 映射器利用运维工程团队过去人工积累的设备配置模型和控制器统一配置模型的映射数据(正样本),结合负样本采样技术,生成网络配置领域的小型数据集,对 SBERT 进行网络配置领域自适应调优得到 NetBERT 模型。NetBERT 基于配置语义进行推理和映射,输出异构配置模型之间的映射推荐,运维专家可进一步审阅确认,提升运维效率。


评估实验

在评估部分,研究者分别评估了 NAssim 在 SNA 的两个阶段的表现,一是厂商设备配置模型构建阶段(VDM Construction Phase)的有效性和可靠性,二是配置模型映射阶段(VDM-UDM Mapping Phase)的准确性。

在第一阶段的评估中,研究者展示了基于四个主流设备商(华为、思科、诺基亚 / 阿朗、华三)的配置手册,使用 NAssim 解析器 + 校验器构建设备原生配置模型的实践经验。实验详细结果如下表 4.

实验结果表明,NAssim 解析器框架 + 校验器可以成功从四个主流设备商的配置手册中构建出精确可靠的设备配置模型。在构建过程中,校验器识别出配置手册中超过 200 个歧义性错误。


在第二阶段的评估中,研究者以 top k 召回率(recall@top k)为指标评估 NAssim 映射器进行配置映射推荐的效果,即正确映射在前 k 个推荐项中出现的百分比。k 值越小时召回率越高代表推荐的配置映射效果越好。实验详细结果如下表 5.

实验中采用了如下基线模型:(1) IR:基于信息检索(information retrieval)的映射方式,研究者选取了其中最为经典的 TF-IDF 方法。(2)SBERT(3)SimCSE (4)IR+DL:复合模型,先采用 IR 方法进行 top 50 粗筛,之后使用深度学习模型进行细粒度的配置语义相似度计算和排序。

实验结果表明,经过配置领域适应的 NetBERT 模型结合 IR 粗筛达到了最佳的配置映射推荐效果。在映射华为设备的配置模型到控制器统一配置模型的实验中,recall@top 10 为 89%,这意味着如果允许推荐 10 个映射,则只有 11% 的情况下,运维工程师需要去翻阅配置手册,提升了 9 倍运维工程师效率。


更多细节内容请阅读原论文。

相关文章
|
人工智能 编解码 自然语言处理
上交大&上海AI lab研发胸部X-ray疾病诊断基础模型,成果入选Nature子刊
上交大&上海AI lab研发胸部X-ray疾病诊断基础模型,成果入选Nature子刊
229 0
|
4月前
|
人工智能
ACM最新论文戳破大公司开源谎言,GenAI时代到底如何定义开源模型
【7月更文挑战第2天】ACM论文揭示GenAI开源真相,指出开源模型常缺乏开放数据集、完整代码与功能,质疑大公司仅借开源名义吸引利益。论文倡导重新定义开源,提议全面评估框架、加强监管及教育,确保真开源,促进领域健康发展。[链接:https://dl.acm.org/doi/3630106.3659005]
73 16
|
4月前
|
机器学习/深度学习 运维 算法
|
6月前
|
机器学习/深度学习 运维 算法
大数据基础工程技术团队4篇论文入选ICLR,ICDE,WWW
近日,由阿里云计算平台大数据基础工程技术团队主导的四篇时间序列相关论文分别被国际顶会ICLR2024、ICDE2024和WWW2024接收。
|
6月前
|
域名解析 负载均衡 网络协议
阿里云基础设施网络研发团队参与论文获得CCS 2023 杰出论文奖
阿里云基础设施网络研发团队参与论文获得CCS 2023 杰出论文奖
|
机器学习/深度学习 人工智能 安全
隐语团队研究成果再创佳绩,两篇论文分别被USENIX ATC'23和IJCAI'23接收!
隐语团队研究成果再创佳绩,两篇论文分别被USENIX ATC'23和IJCAI'23接收!
199 0
|
机器学习/深度学习 人工智能 达摩院
祝贺!阿里巴巴获数据科学顶会最佳论文奖
祝贺!阿里巴巴获数据科学顶会最佳论文奖
115 0
|
机器学习/深度学习 数据处理 开发工具
带你读《2022技术人的百宝黑皮书》——国际顶会OSDI首度收录淘宝系统论文, 端云协同智能获大会主旨演讲推荐(2)
带你读《2022技术人的百宝黑皮书》——国际顶会OSDI首度收录淘宝系统论文, 端云协同智能获大会主旨演讲推荐(2)
125 0
|
机器学习/深度学习 自然语言处理 PyTorch
带你读《2022技术人的百宝黑皮书》——国际顶会OSDI首度收录淘宝系统论文, 端云协同智能获大会主旨演讲推荐(5)
带你读《2022技术人的百宝黑皮书》——国际顶会OSDI首度收录淘宝系统论文, 端云协同智能获大会主旨演讲推荐(5)
171 0
|
云安全 安全 Cloud Native
首添机密计算创新成果!龙蜥首获 ACM SIGSOFT 杰出论文奖
通过Lejacon构建的Java机密应用,最高可得16.2倍提升,极大提升了机密应用的安全性。