[ICLR2024]基于对比稀疏扰动技术的时间序列解释框架ContraLSP

本文涉及的产品
RDS DuckDB + QuickBI 企业套餐,8核32GB + QuickBI 专业版
简介: 《Explaining Time Series via Contrastive and Locally Sparse Perturbations》被机器学习领域顶会ICLR 2024接收。该论文提出了一种创新的基于扰动技术的时间序列解释框架ContraLSP,该框架主要包含一个学习反事实扰动的目标函数和一个平滑条件下稀疏门结构的压缩器。论文在白盒时序预测,黑盒时序分类等仿真数据,和一个真实时序数据集分类任务中进行了实验,ContraLSP在解释性能上超越了SOTA模型,显著提升了时间序列数据解释的质量。

开篇

近日,由阿里云计算平台大数据基础工程技术团队主导,与南京大学、宾夕法尼亚州立大学、清华大学等高校合作,解释时间序列预测模型的论文《Explaining Time Series via Contrastive and Locally Sparse Perturbations》被机器学习领域顶会ICLR 2024接收。该论文提出了一种创新的基于扰动技术的时间序列解释框架ContraLSP,该框架主要包含一个学习反事实扰动的目标函数和一个平滑条件下稀疏门结构的压缩器。论文在白盒时序预测,黑盒时序分类等仿真数据,和一个真实时序数据集分类任务中进行了实验,ContraLSP在解释性能上超越了SOTA模型,显著提升了时间序列数据解释的质量。


背景

在金融、游戏和医疗保健等领域,为机器学习模型所做的预测提供可靠的解释具有极高的重要性,因为透明度和可解释性通常是道德和法律的先决条件。如图1所示,学者们经常处理复杂的视觉、文本、图结构数据通过选择最显著的因子,但是对解释时间序列模型的方法的研究仍然是一个未充分探索的前沿。此外,将最初为不同数据类型设计的解释器进行适配带来了挑战,因为它们的归纳偏差可能难以适应时间序列数据本质上的复杂性和较低的可解释性。


image.png

图一:基于显著图的解释在视觉、图数据、游戏场景的应用


挑战

现有的解释方法涉及使用显著性方法,这些方法的解释区分取决于它们与任意模型的交互方式。一些工作建立了显著图,例如,结合梯度或构造注意力机制,以更好地处理时间序列特征,而它们难以发现时间序列模式。其他替代方法,包括Shapley值或LIME,通过加权线性回归在局部近似模型预测,为我们提供解释。这些方法主要提供实例级别的显著图,但特征间的互相关常常导致显著的泛化误差。在时间序列中最常见的基于扰动的方法通常通过基线、生成模型或使数据无信息的特征来修改数据,但这些扰动的非显著区域并不总是无意义的并且存在不在数据分布内的样本,导致解释模型存在偏差,如图二所示。我们的工作通过样本间反事实扰动,专注于理解模型在不同群组间的整体和具体行为。


image.png

图二:在阐述不同风格的扰动时,图示中的红线代表属于两个类别中类别1的一个样本,而深色背景表示显著特征,其他部分则为非显著特征。其他扰动可能不是无信息的或不在数据分布内,而我们的扰动是反事实的,即朝向负样本的分布。


破局

对于一个具体的扰动: image.png ,我们需要与其原始实例x对于的标签y一致,通过掩码m来计算显著的区域。其优化目标可表示为如下式子,其中第一项保证扰动和原始实例输入到黑盒时序模型f中得到的预测一致性,第二项保证解释区域m最小化,第三项保证解释区域的平滑性。 image.png 基于此,本文提出了ContraLSP框架,该框架如图三所示。这是一个局部稀疏解释模型,它通过引入反事实样本来构建无信息扰动同时保持样本分布。此外,我们融入了特定于样本的稀疏门控机制来生成更倾向于二值化且平滑的掩码,这有助于简洁地整合时间趋势并精选显著特征。在保证标签的一致性条件下,其整体优化目标修改为: image.png

image.png


图三: ContraLSP整体框架

(1)通过对比学习提取反事实扰动:我们的ContraLSP通过对比学习来学习反事实样本,以增强无信息扰动,同时保持样本分布。这允许在异质样本中将扰动的特征趋向于负样本的分布,从而增加了扰动的影响。具体来说,我们首先通过距离相似性寻找时序样本中的正负样本对 image.png 。将当前实例通过一个神经网络生成出反事实示例,使得它更加靠近负样本 image.png 并更加远离正样本 image.png ,如图四所示。其优化三元组的目标函数为: image.png


image.png

图四:使用三元组损失(triplet loss)生成反事实扰动


(2)具有平滑约束的稀疏门:在学习掩码时需要保证显著特征的稀疏和平滑。如图五所示,当扰动实例是不平滑的时间序列,输入到的黑盒模型中可能会造成分类错误,影响解释的性能。

image.png

图五:掩码序列是否平滑的对比。如果不平滑,黑盒模型可能会预测错误。


因此,我们采用学习时间趋势描述平滑的扰动,并且用该平滑约束下的l0正则去限制掩码。具体来说,我们令掩码m生成通过门控的形式: image.png ,其中平滑因子为 image.png 通过时间趋势学习温度,使其控制sigmoid-weighted单元。一个不同温度下平滑掩码的示例如图六所示。最后优化掩码的损失函数为: image.png


image.png

图六:不同温度条件下的sigmoid-weighted单元。平滑掩码(红色)相较于硬掩码(黑色)更好的适应时间序列。


应用

现已将ContraLSP集成到飞天大数据AI管控平台ABM的时序指标下钻和异常检测算法服务中,后续将进一步研究如何将ContraLSP技术与现有平台结合进行时间序列上的根因分析。

相关文章
|
分布式计算 Hadoop 大数据
一口气说完MR、Storm、Spark、SparkStreaming和Flink
一口气说完MR、Storm、Spark、SparkStreaming和Flink
|
7月前
|
JavaScript NoSQL 前端开发
搭建实时足球比分系统从零到一的实战指南
构建实时足球比分系统需聚焦数据流架构:从API/爬虫获取数据,经后端处理存储,通过REST/WebSocket提供接口,前端展示。推荐使用专业API保障稳定性,结合Python/Node.js、PostgreSQL/MongoDB、Redis缓存与WebSocket实现实时推送。优先考虑法律合规与高并发应对,建议逐步迭代开发,亦可借助现成插件或服务快速上线。(238字)
|
机器学习/深度学习 存储 人工智能
Attention优化重大突破!显存减半效率倍增
本文探讨了Transformer中Attention机制的演变与优化。从2017年Transformer提出以来,各种改进如MQA、GQA、MLA等层出不穷,旨在降低计算复杂度和显存消耗,同时保持模型性能。文章首先介绍了Attention的基本原理,通过QKV矩阵运算实现序列建模。接着分析了优化方法:kv caching将计算复杂度从O(n^3)降至O(n^2),但带来显存压力;MQA、GQA等通过减少或压缩K/V降低显存需求;而NSV、MoBA等稀疏化研究进一步缓解长序列下的计算与存储负担,推动大模型向更长上下文扩展。
|
XML 存储 机器人
06 ROS配置launch文件
本文介绍了如何在ROS(机器人操作系统)中配置launch文件,包括设置节点、参数、局部变量、重映射以及嵌套launch文件的方法,并通过XML格式实现了多节点的一键配置与启动。
475 0
|
域名解析 缓存 网络协议
【域名解析DNS专栏】IPv6与DNS:兼容性挑战与解决方案
【5月更文挑战第29天】随着IPv6逐渐成为互联网主流,DNS面临兼容性挑战,包括解析机制差异、资源记录类型扩展和查询流程优化。为解决这些问题,可采取升级DNS系统以支持IPv6、部署双栈DNS服务和优化DNS缓存策略。通过这些措施,可确保IPv6环境下的域名解析顺利进行。
1494 1
|
存储 人工智能 Java
ChatGPT API接口编程基础与使用技巧
ChatGPT API接口编程基础与使用技巧
1533 0
|
存储 自然语言处理 算法
【算法精讲系列】MGTE系列模型,RAG实施中的重要模型
检索增强生成(RAG)结合检索与生成技术,利用外部知识库提升大模型的回答准确性与丰富性。RAG的关键组件包括文本表示模型和排序模型,前者计算文本向量表示,后者进行精细排序。阿里巴巴通义实验室推出的GTE-Multilingual系列模型,具备高性能、长文档支持、多语言处理及弹性向量表示等特性,显著提升了RAG系统的检索与排序效果。该系列模型已在多个数据集上展示出优越性能,并支持多语言和长文本处理,适用于各种复杂应用场景。
3324 18
|
机器学习/深度学习 监控 数据可视化
【日常聊聊】解决深度学习模型挑战:解释性与鲁棒性的平衡
【日常聊聊】解决深度学习模型挑战:解释性与鲁棒性的平衡
|
Java Python Windows
Python pip 源设置成国内源,阿里云源,清华大学源,最方便的方式,都在这里了
Python pip 源设置成国内源,阿里云源,清华大学源,最方便的方式,都在这里了
91614 1
基于ADM自适应增量调制算法的matlab性能仿真
该文主要探讨基于MATLAB的ADM自适应增量调制算法仿真,对比ADM与DM算法。通过图表展示调制与解调效果,核心程序包括输入输出比较及SNR分析。ADM算法根据信号斜率动态调整量化步长,以适应信号变化。在MATLAB中实现ADM涉及定义输入信号、初始化参数、执行算法逻辑及性能评估。

热门文章

最新文章