CVPR 2023 Highlight | 西湖大学提出一种全新的对比多模态变换范式

简介: CVPR 2023 Highlight | 西湖大学提出一种全新的对比多模态变换范式

本文被CVPR官方评选为Highlight,录用率仅为2.57%

1、导读

  • 该方法适配性强,目前已被作者应用到了多个领域,例如蛋白质设计、计算免疫学等应用领域。请持续关注西湖大学李子青(Stan Z. Li)组的AI for Science相关工作。
  • 基于本文的手语识别(Sign Language Recognition, SLR)方法,或可推广应用于手语翻译(Sign Language Translation,SLT)任务。
  • 本文作者还整理和公开了一系列AI手语研究的论文集合,方便感兴趣的读者以全面了解和入门该领域。见文末参考链接。

2、文章概要

图1:手语识别旨在将手语视频(sign language videos)转换为手语词汇(sign language glosses)

手语识别(Sign Language Recognition, SLR)是一项弱监督的多模态学习任务,它将手语视频注释为文本词汇。最近的研究表明,由于缺乏大规模可用的手语数据集而导致的训练不足成为SLR的主要瓶颈。因此,大多数SLR工作采用了预训练的视觉模块,并开发了两种主流解决方案:1)多流架构扩展了多线索的视觉特征,产生了目前的SOTA性能,但需要复杂的设计,并可能引入潜在的噪音;2)先进的单线索SLR框架在视觉和文本模态之间使用显式的跨模态对齐,简单而有效,有潜力与多线索框架竞争。在这项工作中,作者为SLR提出了一种新的对比性的视觉-文本转换(Contrastive Visual-Textual Transformation, CVT),即CVT-SLR,以充分发掘视觉和语言模态的预训练知识。基于单线索跨模态对齐框架,我们为预训练的语境知识提出了一个变分自编码器(variational Autoencoder, VAE),同时引入完整的预训练语言模块。VAE隐含了视觉和文本模式的对齐,同时受益于预训练的语境知识。同时,设计了一个对比性的跨模态对齐算法,以显式地加强一致性约束。在公共数据集(PHOENIX-2014和PHOENIX-2014T)上进行的大量实验表明,作者提出的CVT-SLR不仅优于现有的单线索方法,甚至优于SOTA多线索方法。

3、Introduction

图2:(a) 先前先进的单线索SLR框架,带有显式的跨模态对齐;(b) 本文提出的单线索SLR框架,带有显式的跨模态对齐和隐式自编码器对齐

作为一种特殊的视觉自然语言,手语是聋人群体的主要交流媒介。随着深度学习的发展,SLR作为一项多模态学习任务出现,旨在将手语视频注释成文本手语词汇。然而,SLR的一个窘境是缺乏公开可用的手语数据集。例如,最常用的PHOENIX-2014和PHOENIX-2014T数据集只包括大约10K对手语视频和词汇注释,这远远不能像典型的视觉-语言跨模态任务那样训练一个具有完全监督的SLR系统。因此,容易导致训练不足或过度拟合问题的数据限制是SLR任务的主要瓶颈。

弱监督SLR的发展见证了大部分的改进工作都集中在视觉模块(如CNN)上。从人类动作识别的通用领域转移预训练的视觉网络,成为缓解低资源限制的共识。主流的多流SLR框架用多线索视觉信息扩展了预训练的视觉模块,包括全局特征和独立流中的手和脸等区域特征。这种方法的理论支持来自手语语言学,手语利用多种互补的渠道(如手形、面部表情)来传达信息。多线索机制本质上是利用了对关键信息的硬性关注,产生了目前的SOTA性能。然而,多线索框架很复杂(例如,裁剪多个区域,需要更多的参数),而且多个数据流的融合可能会引入额外的潜在噪声。

另一个主流的先进解决方案是单线索跨模态对齐框架,它包括一个预训练的视觉模块,然后是一个上下文模块(如RNN,LSTM,Transformer)和一个基于连接主义时间分类(CTC)的对齐模块,用于生成手语词汇,如图2(a)所示。显示的跨模态对齐约束进一步改善了特征的相互作用,这可以被视为两种不同模态之间的一种一致性,促进视觉模块从上下文模块学习长期时间信息。跨模态对齐框架简单而有效,有潜力与多线索框架竞争。尽管带有预训练视觉模块的复杂多线索架构性能更先进,但跨模态一致性是一个更优雅的设计,适合实际使用。它还意味着先前的上下文语言知识的潜力,这一点被现有的SLR工作所忽视。

在这项工作中,作者提出了一个新颖的SLR的对比性视觉-文本转换框架,称为CVT-SLR,以充分发掘视觉和语言模态的预训练知识,如图2(b)所示。基于单线索跨模态对齐框架,CVT-SLR保留了预训练的视觉模块,但用一个VAE取代了传统的上下文模块。由于使用了完整的编码器-解码器架构,VAE负责学习基于伪翻译任务的预训练语境知识,同时引入完整的预训练语言模块。此外,由于自编码器的形式,VAE保持了输入和输出模式的一致性,起到了隐性的跨模态对齐作用。此外,受对比学习的启发,还引入了一种对比对齐算法,该算法专注于正反两方面的样本,以加强显式的跨模态一致性约束。

在公共数据集PHOENIX-2014和PHOENIX-2014T上进行的广泛的定量实验证明了所提出的CVT-SLR框架的先进性。通过消减研究和定性分析,进一步验证了引入预训练的语言知识和新的一致性约束机制的有效性。

本文的主要贡献如下:

  • 提出了一个新颖的基于视觉-文本转换的SLR框架,它首次引入了完全预训练的语言知识,并为其他跨模态任务提供了新的思路。
  • 围绕跨模态一致性约束提出了新的对齐方法:a)利用自编码器的特殊属性,隐含地对齐视觉和文本模态;b)引入显式的对比性跨模态对齐方法。
  • 提出的单线索CVT-SLR框架不仅大幅度超过了现有的单线索基线,甚至超过了SOTA的多线索基线。

4、Methods

图3:CVT-SLR训练管线的示意图

本文提出为CVT-SLR的新颖架构,用于解决手语识别(SLR)任务,并充分利用视觉和语言模态的预训练知识。CVT-SLR框架的训练管线可以分为两个主要步骤,如图3所示。

第一步是通过变分自编码器(Variational Autoencoder,VAE)网络对文本模态进行预训练。VAE采用了完整的编码器-解码器架构,并通过无监督的方式构建了预训练的语境知识。由于自编码器的特殊形式,VAE能够保持输入和输出模态之间的一致性,从而实现隐性的跨模态对齐。这样的预训练过程引入了完整的预训练语言知识,并为后续任务提供了有用的先验信息。

第二步是将现有的视觉模块(通常是在Kinetics/ImageNet上训练而来的公开可用的CNN)和来自第一步预训练的文本模块转移到CVT-SLR框架中。为了实现这种迁移,作者引入了一个称为Video-Gloss Adapter的桥接模块,它本质上是一个多层感知机(MLP)层,用于将两个不同模态的预训练模块连接起来。此外,受先前跨模态学习和对比学习的启发,作者设计了一种内部跨层的跨模态对比对齐算法,其专注于正、负样本的构造,以显式地加强两个模态编码器的一致性约束,如图3中的Contrastive Alignment Loss所示。

5、主实验

图4:(主实验)CVT-SLR和基线模型在PHOENIX-2014数据集上的比较结果

WER和DEL/INS指标越低越好。每组的最佳结果和SOTA基线分别被标记为粗体和下划线。

图4展示了CVT-SLR和基线模型的在流行的SLR数据集PHOENIX-2014上进行主要实验比较。实验结果表明,CVT-SLR不仅优于现有的其他单线索(输入仅手语视频)基线方法,甚至优于多线索(输入包括视频和其他辅助信息)的最先进方法。这一结果验证了在多模态框架中有效引入先验的源端和目标端模态知识能够改善跨模态任务的性能。

6、实例和可视化分析

图5:在PHOENIX-2014测试集上的四个例子,从左到右依次为跨模态对齐矩阵(左)、显著图(中)和生成的词汇(右)

此外,作者还展示了四个可视化分析例子,如图5所示,每个例子都显示了对齐矩阵、一系列的显著图,以及图中生成的词汇。对齐矩阵显示了视觉和文本特征之间的对齐关系,而显著图显示了专注于手势的最高激活区域。

7、拓展延伸:AI手语研究

AI手语识别或翻译研究是视觉语言(CV)和文本语言(NLP)结合最“无违和感”的跨模态学习案例之一,具有十分重要的科研意义和实际应用的社会价值。目前缺少大规模供研究所需的数据集,更是缺少实用级别的数据,因此,AI手语任重道远。另外,手语跟口语一样,是有区域性方言的,不同国家的手语是不一样的,且同一个国家不同地区的手语也不同。目前对中国手语的研究也是甚少。

如果你是AI手语领域感兴趣或者初学者,推荐阅读作者整理的论文集,对于入门或深入理解AI手语领域很有帮助:https://github.com/binbinjiang/SL_Papers.

8、参考

[1].论文链接:CVT-SLR: Contrastive Visual-Textual Transformation for Sign Language Recognition with Variational Alignment https://arxiv.org/abs/2303.05725

[2].代码链接:https://github.com/binbinjiang/CVT-SLR

[3].AI手语论文集合链接:https://github.com/binbinjiang/SL_Papers

相关文章
|
2月前
|
存储 人工智能 自然语言处理
RAG:增强大模型知识库的新范式
RAG:增强大模型知识库的新范式
493 99
|
2月前
|
人工智能 Java API
Java与大模型集成实战:构建智能Java应用的新范式
随着大型语言模型(LLM)的API化,将其强大的自然语言处理能力集成到现有Java应用中已成为提升应用智能水平的关键路径。本文旨在为Java开发者提供一份实用的集成指南。我们将深入探讨如何使用Spring Boot 3框架,通过HTTP客户端与OpenAI GPT(或兼容API)进行高效、安全的交互。内容涵盖项目依赖配置、异步非阻塞的API调用、请求与响应的结构化处理、异常管理以及一些面向生产环境的最佳实践,并附带完整的代码示例,助您快速将AI能力融入Java生态。
463 12
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
53_多模态LLM:图像理解的新范式
在人工智能技术快速发展的今天,单一模态的语言模型已经无法满足日益复杂的应用需求。2025年,多模态大型语言模型(MLLM)的崛起标志着AI技术进入了一个新的发展阶段,特别是在图像理解与文本生成的结合方面取得了突破性进展。本文将深入剖析多模态LLM的技术原理、架构设计、性能评估及实际应用案例,探讨视觉-语言融合技术如何重塑AI应用的边界,以及在未来发展中面临的挑战与机遇。
|
人工智能 运维 安全
世界级大模型群,进化阿里云服务器操作系统新范式
世界级大模型群,进化阿里云服务器操作系统新范式
355 13
|
机器学习/深度学习 人工智能 自然语言处理
清华EconAgent获ACL 2024杰出论文:大模型智能体革新计算经济学研究范式
近年来,人工智能的迅猛发展推动了数据驱动建模在宏观经济学领域的应用。清华大学研究团队提出的EconAgent模型,基于大型语言模型,具备类似人类的决策能力,能更准确地模拟个体行为对宏观经济系统的影响。EconAgent在个体异质性、市场动态及宏观经济因素模拟方面表现出色,并具有更好的可解释性和灵活性。然而,其高计算复杂度和部分决策过程的不透明性仍需进一步解决。该成果已在ACL 2024会议上获得杰出论文奖。论文链接:https://arxiv.org/abs/2310.10436v4
456 3
|
11月前
|
人工智能 自然语言处理
RWKV-7:RWKV系列开源最新的大模型架构,具有强大的上下文学习能力,超越传统的Attention范式
RWKV-7是RWKV系列的最新大模型架构版本,具有强大的上下文学习能力,超越了传统的attention和linear attention范式。本文详细介绍了RWKV-7的主要功能、技术原理及其在多语言处理、文本生成等领域的应用场景。
741 7
RWKV-7:RWKV系列开源最新的大模型架构,具有强大的上下文学习能力,超越传统的Attention范式
|
机器学习/深度学习 人工智能 测试技术
DeepSeek新作Janus:解耦视觉编码,引领多模态理解与生成统一新范式
DeepSeek-AI团队提出的Janus框架,通过解耦视觉编码,实现了多模态理解与生成的统一。该框架在多模态理解和生成任务上均表现出色,尤其在MMBench、SEED-Bench等多个基准测试中取得领先结果。Janus的设计提高了任务灵活性和可扩展性,但也面临计算成本和训练数据需求的挑战。
420 8
|
SQL 人工智能 自然语言处理
DataWorks Copilot:大模型时代数据开发的新范式
阿里云DataWorks是一站式数据开发治理平台,支持多种大数据引擎,助力企业构建数据仓库、湖仓一体架构。DataWorks现推出Copilot,致力于打造智能SQL助手和AI Agent,通过生成SQL、优化SQL、提供查询帮助、注释生成、错误修正等功能,帮助数据开发工程师和数据分析师提升SQL 开发和分析的效率和体验。目前,DataWorks Copilot正开放邀测,欢迎大家体验。
21268 7
|
机器学习/深度学习 传感器 人工智能
毫末智行艾锐谈自动驾驶大模型:全新范式是「生存」必选项
毫末智行艾锐谈自动驾驶大模型:全新范式是「生存」必选项
611 0
|
传感器 机器学习/深度学习 人工智能
多模态大模型代表了人工智能领域的新一代技术范式
多模态大模型代表了人工智能领域的新一代技术范式
140 2

热门文章

最新文章