中科大提出统一输入过滤框架InFi:首次理论分析可过滤性,支持全数据模态

简介: 中科大提出统一输入过滤框架InFi:首次理论分析可过滤性,支持全数据模态
针对模型 推理过程中的输入冗余,中科大新研究首次从理论角度进行了可过滤性分析,并提出统一的输入过滤框架,让模型推理的资源效率大幅提升。


随着移动设备算力的提高和对感知数据进行实时分析需求的增长,以移动为中心的人工智能应用愈发普遍。据估计,2022 年将有超过 80% 的商用 IoT 项目将包含 AI 应用。然而多数精度最优的 AI 模型的计算量过大,以至于难以在移动设备上进行高吞吐的推理,甚至当推理任务被卸载到边缘或云端服务器时其推理效率也难以满足应用的需求。

冗余的输入广泛存在于移动为中心的人工智能应用中,将其过滤是一种有效的提高推理效率的方法。现有工作分别探索过两类输入过滤机制:推理跳过和推理重用。其中推理跳过方法旨在跳过那些不会产生有意义输出的推理计算,例如相册分类应用可能会在没有人脸的图片上运行人脸检测模型:


智能音箱应用可能将不包含指令的语音上传至云端进行语音识别:


而推理重用方法希望重用已进行过得推理计算结果,从而在新的数据到来时能够从缓存中更快速地返回结果,例如智能手环上的动作分类模型可能会处理产生相同动作标签的运动信号:

以及基于无人机和边缘服务器的交通监控可能会在连续两个画面帧中得到不变的车辆计数结果:


现有工作已针对很多应用设计了有效的输入过滤方法,然而两个重要的问题仍未得到解答,并且严重影响着输入过滤方法的应用:

推理任务的可过滤性。尽管输入过滤技术已在很多具体应用中显示出优化效果,但往往是由主观的对冗余输入的观察而启发的。如果不能从理论上回答 “哪些推理任务存在输入过滤的优化机会” 这一问题,则输入过滤技术的应用难以避免高成本的试错过程;

鲁棒的特征可区分性。输入数据的特征表达直接关系到进行推理跳过和找到可重用推理结果的精度,因此对于输入过滤的表现有着关键影响。现有方法多数依赖手工特征或预训练深度特征,这些特征在应用过程中没有鲁棒的可区分性,可能完全失去过滤效果。


在 MobiCom 2022 上,中国科学技术大学 LINKE 实验室针对移动为中心的模型推理场景,提出端到端可学的输入过滤框架 InFi (INput FIlter)。该工作首次对输入过滤问题进行了形式化建模,并基于推理模型和输入过滤器的函数族复杂性对比,在理论层面上对推理任务的可过滤性进行了分析。InFi 框架涵盖了现有的 SOTA 方法所使用的推理跳过和推理重用机制。基于 InFi 框架,该工作设计并实现了支持六种输入模态和三种推理任务部署方式的输入过滤器,在以移动为中心的推理场景中有着广泛的适用性。在 12 个以移动为中心的人工智能应用上进行的实验验证了理论分析结果,并表明 InFi 在适用性、准确性和资源效率方面均优于 SOTA 方法。其中,在一个移动平台上的视频分析应用中,相较于原始推理任务,InFi 实现了 8.5 倍的推理吞吐率并节省了 95% 的通信带宽,同时保持超过 90% 的推理精度。


论文地址:https://yuanmu97.github.io/preprint/InFi_MobiCom22.pdf项目地址:https://github.com/yuanmu97/infi

可过滤性分析

直观来说,推理任务的可过滤性指:相较于原始推理任务,能否得到一个低成本、高精度的输入数据冗余性的预测器。原始的推理任务定义为属于函数族 H  的模型 h,其将输入数据映射至推理输出,例如人脸检测模型以图片为输入,输出检测结果(人脸位置的检测框)。根据推理模型的输出结果,定义冗余性判断函数 f_h,其输出冗余性标签,例如当人脸位置检测框输出为空时,将该次推理计算视为冗余。属于函数族 G  的输入过滤器  g 定义为从输入数据到冗余标签的映射函数。


假设原始推理模型的目标函数(即提供真实标签的函数)为 c ,其过滤器的目标函数为,则可见训练原始的推理模型和训练输入过滤器的区别在于监督标签的不同:推理预测由原始任务标签域  Y 监督,而过滤预测由冗余标签域 Z  监督。那么对于推理任务的可过滤性一个直观的想法是,如果学习输入过滤器比学习原始推理模型更简单,则有潜力得到有效的输入过滤器。

基于此思路,该工作分析了三类常见推理任务的可过滤性:


分析过程的关键在于将输入过滤器的目标函数与原始推理模型相关联,从而在两个学习任务间建立复杂度可比较的桥梁。以分类任务基于置信度进行冗余判别为例,输入过滤器的目标函数族形式为,依此可证明输入过滤器的函数族的 Rademarcher 复杂度小于等于原始推理模型,进而得到该任务可过滤性的分析结果。

框架设计和实现

以上的可过滤性分析基于将输入过滤视为一个学习任务得到,因此框架设计需要具有端到端可学性,而不依赖手工特征或预训练深度特征。同时,框架设计应该统一地支持推理跳过(SKIP)和推理重用(REUSE)机制。该工作基于一个简洁的思路,即 SKIP 等价于对全零输入的推理结果的 REUSE,将两种机制统一到一个框架之中。

框架包含训练和推理两个阶段。训练阶段通过孪生特征网络为一对输入数据抽取特征,计算特征距离后由一个分类网络得到冗余标签预测结果。


在推理阶段,若采用 SKIP 机制,则将另一个输入的特征固定为零,退化为基本的分类器,根据预测的冗余性标签决策是否跳过当前输入数据;若采用 REUSE 机制,则需要维护一个 “输入特征 - 推理输出” 表作为缓存,通过计算当前输入特征与缓存的输入特征之间的距离,采用 K - 近邻方法决策是否重用缓存的推理结果。


该工作提出了 “模态相关的特征网络 + 任务无关的分类网络” 的设计,为文本、图像、视频、音频、感知信号、中间层特征设计了特征抽取网络,并能够很容易地扩展至更多数据模态,分类器网络则设计为多层感知机模型。对输入模态的灵活支持为 InFi 在不同的任务部署方式上的适用性提供了基础,包括三种典型的以移动为中心的推理任务部署方式:端上推理、卸载至边缘推理、端 - 边模型切分推理。

InFi 使用 Python 实现,深度学习模块基于 TensorFlow 2.4,目前代码已开源。

验证实验

InFi 在 5 个数据集上的 12 种人工智能推理任务上进行了验证实验,涵盖图片、视频、文本、音频、运动信号、中间层特征六种输入模态。与三个基线方法的对比实验表明,InFi 具有更广泛的适用性,并且在准确性和效率上都更优。


以在城市道路监控视频中进行车辆计数的任务为例,在端上推理时,相较于原始的工作流,采用 SKIP 和 REUSE 机制的 InFi 方法分别能够将推理吞吐提升 1.9 和 7.5 倍,同时皆保持超过 90% 的推理精度;在进行端 - 边模型切分推理时,两种机制下的 InFi 分别能够节省 70.7% 和 95.0% 的通信带宽。


InFi 的训练成本也很低。在一个基于运动信号的动作识别应用中,仅使用 10% 的训练数据集即可得到过滤表现接近最优的 SKIP 和 REUSE 结果。InFi 可在保持超过 95% 推理精度的情况下,节省 80% 的推理运算。


结论与未来展望

该工作首次给出了可过滤性的理论分析,提出了统一的端到端可学的输入过滤框架,并在广泛的人工智能推理任务中验证了其设计和实现的优越性,对于实现以移动为中心的资源高效的推理有着重要的意义。InFi 框架的一大优点在于无需人工标注,未来可能会形成新的人工智能模型部署的最佳实践,即在每个模型的推理服务期间,自监督地训练输入过滤器,实现精度 - 资源权衡的模型推理。

论文引用:
Mu Yuan, Lan Zhang, Fengxiang He, Xueting Tong, and Xiang-Yang Li. 2022. InFi: End-to-end Learnable Input Filter for Resource-efficient Mobilecentric Inference. In The 28th Annual International Conference On Mobile Computing And Networking (ACM MobiCom ’22), October 24–28, 2022, Sydney, NSW, Australia. ACM, New York, NY, USA, 14 pages. https://doi.org/10.1145/ 3495243.3517016

相关文章
|
5月前
|
人工智能 测试技术 API
GPT-5.2与Gemini 3.0终极抉择:谁更适配你的需求?
GPT-5.2与Gemini 3.0巅峰对决:前者全场景强势,推理精准,适配专业高负载任务;后者垂直深耕多模态与研究场景,性价比突出。性能、成本、生态各异,选择关键在于匹配自身需求——追求极致能力选GPT-5.2,注重实用成本选Gemini 3.0。
616 0
|
Java API 开发者
深入理解Java中的异常处理机制
本文探讨了Java编程语言中异常处理的核心概念,包括异常类型、异常捕获与抛出、以及最佳实践。通过分析常见的异常场景和处理策略,旨在帮助开发者更好地理解和运用异常处理机制,提高代码的健壮性和可维护性。文章不仅涵盖了基本的try-catch结构,还深入讨论了自定义异常的创建与使用,以及finally块的重要性和应用。此外,还将介绍一些高级技巧,如多异常捕获和嵌套异常处理,为读者提供全面的技术指导。
329 0
|
存储 关系型数据库 MySQL
MySQL MVCC全面解读:掌握并发控制的核心机制
【10月更文挑战第15天】 在数据库管理系统中,MySQL的InnoDB存储引擎采用了一种称为MVCC(Multi-Version Concurrency Control,多版本并发控制)的技术来处理事务的并发访问。MVCC不仅提高了数据库的并发性能,还保证了事务的隔离性。本文将深入探讨MySQL中的MVCC机制,为你在面试中遇到的相关问题提供全面的解答。
1049 2
|
Java 关系型数据库 MySQL
体育赛事管理系统的设计与实现(源码+论文)_kaic
体育赛事管理系统的设计与实现(源码+论文)_kaic
通过matlab分别对比PSO,反向学习PSO,多策略改进反向学习PSO三种优化算法
本项目使用MATLAB2022A版本,对比分析了PSO、反向学习PSO及多策略改进反向学习PSO三种优化算法的性能,主要通过优化收敛曲线进行直观展示。核心代码实现了标准PSO算法流程,加入反向学习机制及多种改进策略,以提升算法跳出局部最优的能力,增强全局搜索效率。
602 11
Electron-store 存储数据的大小限制
【10月更文挑战第18天】虽然无法给出一个确切的数字来表示 Electron-store 的存储数据大小限制,但通过对相关因素的分析和理解,我们可以更好地管理和利用这一存储工具,为应用的稳定运行提供保障。同时,随着技术的不断发展和进步,未来可能会有更优化的存储解决方案出现,进一步拓展我们的存储能力和应用场景。
|
消息中间件 Cloud Native 物联网
深度剖析 RocketMQ 5.0,消息基础:RocketMQ 在业务消息场景的基础优势是什么?
本文主要介绍业务消息的应用解耦场景,具体解耦什么? RocketMQ 在业务消息场景的基础特性。业界那么多消息队列能实现应用解耦,RocketMQ 在基础特性上有哪些增强?
126040 2
深度剖析 RocketMQ 5.0,消息基础:RocketMQ 在业务消息场景的基础优势是什么?
|
存储 分布式计算 资源调度
Hadoop生态系统概览:从HDFS到Spark
【8月更文第28天】Hadoop是一个开源软件框架,用于分布式存储和处理大规模数据集。它由多个组件构成,旨在提供高可靠性、高可扩展性和成本效益的数据处理解决方案。本文将介绍Hadoop的核心组件,包括HDFS、MapReduce、YARN,并探讨它们如何与现代大数据处理工具如Spark集成。
1390 0
|
Linux 网络安全 网络虚拟化
跨主机网络
跨主机网络
283 0
|
算法 索引
链表经典练习题
链表经典练习题