长时序建模问题新解,斩获ACM MM

简介: ACMMM(ACM International Conference on Multimedia, 国际多媒体会议)是ACM多媒体领域的顶级会议,也是中国计算机学会推荐的A类国际学术会议,每年举办一次。其接收的论文覆盖了多媒体、多媒体检索、机器学习、人工智能、视觉、数据科学、HCI、多媒体信号处理以及医疗保健、教育、娱乐等多个领域的众多研究方向。

论文题目

Enlarging the Long-time Dependencies via RL-based Memory Network in Movie Affective Analysis


论文简介

电影的情感内容理解是近年来情感计算领域的研究热点,其在电影质量评估、高潮点检测、多媒体检索等方面有着重要的应用价值。目前主流的方法(如LSTM/Transformer等)在电影级长时序序列建模中存在固有的缺陷:梯度消失/爆炸、记忆能力有限、计算量大等,针对于此,本文提出了一种基于强化学习的记忆网络用来处理长时序建模问题。具体来讲,我们引入了一个可读可写的memory bank用来存储历史信息,从而提升模型的记忆能力,然后利用强化学习(DDPG)中的策略网络和价值网络建模长时依赖,自适应地更新memory bank中的内容,同时利用强化学习的one-step时序差分的优化方式来避免BPTT中的梯度消失/爆炸的问题。为了验证我们方法的有效性,我们在情感预测任务的LIRIS-ACCEDE数据集上以及音乐情感预测、视频摘要等任务的相关数据集上进行了实验,结果均达到了SOTA。该方法在业务数据应用而得到的模型,在AI内容体检,北斗智投和影视元素内容图谱等业务场景得到了广泛应用。


论文作者

张杰、赵寅、钱凯

(作者均来自阿里巴巴文娱AI大脑北斗星团队)


阿里文娱北斗星AI大脑

通过大数据和AI挖掘用户需求,建立内容采买结构化评估、适配性选角、AI成片体检、排播、数字化宣发等能力,以支撑内容全生命周期辅助决策,从而达到为平台降本增效的目的。

相关文章
|
6月前
|
机器学习/深度学习 存储 计算机视觉
【论文速递】TPAMI2022 - 自蒸馏:迈向高效紧凑的神经网络
【论文速递】TPAMI2022 - 自蒸馏:迈向高效紧凑的神经网络
|
2月前
|
机器学习/深度学习 图形学 计算机视觉
ECCV 2024:南洋理工三维数字人生成新范式:结构扩散模型
【9月更文挑战第6天】南洋理工大学团队提出了一种名为StructLDM的新型三维数字人生成方法,旨在克服现有技术在图像合成质量、细节捕捉及人体结构建模等方面的不足。该方法通过结构化潜在空间、结构化3D感知解码器及结构化潜在扩散模型三项关键技术,实现了高质量的三维数字人生成与编辑,并在多个数据集上展示了卓越的性能和多样性。未来研究将进一步提升模型的鲁棒性和泛化能力。论文预计在ECCV 2024上展示。论文地址:https://arxiv.org/pdf/2404.01241。
40 1
|
3月前
KDD 2024:零样本即可时空预测!港大、华南理工等发布时空大模型UrbanGPT
【8月更文挑战第21天】UrbanGPT是由香港大学等机构研发的时空大模型,针对城市管理中因数据稀缺导致的预测难题,通过时空依赖编码器与指令调整技术实现强大的泛化能力。此模型能在多种城市任务中无需样本进行准确预测,如交通流量和人群流动等,有效应对数据收集难的问题,在零样本场景下表现优异,为智慧城市管理提供了有力工具。[论文](https://arxiv.org/abs/2403.00813)
52 1
|
5月前
|
机器学习/深度学习 计算机视觉
ICLR 2024 Oral :应对随时间变化的分布偏移,西安大略大学等提出学习时序轨迹方法
【6月更文挑战第27天】ICLR 2024 Oral 提出解决时间分布偏移新策略:潜在轨迹学习。针对数据分布随时间变化的挑战,西安大略大学研究团队提出一种方法,通过学习数据的时序轨迹增强模型泛化。在连续的潜在空间中建模分布变化,改善对未见数据的适应性。实验显示在多种场景下性能提升,但需更多计算资源且依赖部分标记数据。[论文链接](https://openreview.net/pdf?id=bTMMNT7IdW)**
54 2
|
5月前
|
机器学习/深度学习 定位技术
ICLR 2024 Spotlight:连续数值分布式表征加持,浙大UIUC让语言模型擅长表格预测
【6月更文挑战第23天】在ICLR 2024会议上,浙大和UIUC的研究团队推出TP-BERTa,一种改进的BERT模型,专为表格预测。通过将连续数值特征转为文本并利用自注意力机制,TP-BERTa能有效处理高维、异构表格数据,提高预测性能。预训练和微调策略使其在XGBoost等传统方法及FT-Transformer等深度学习模型中脱颖而出。论文链接:[anzIzGZuLi](https://openreview.net/pdf?id=anzIzGZuLi)
111 5
|
6月前
|
机器学习/深度学习 计算机视觉
【论文速递】MMM2020 - 电子科技大学提出一种新颖的局部变换模块提升小样本分割泛化性能
【论文速递】MMM2020 - 电子科技大学提出一种新颖的局部变换模块提升小样本分割泛化性能
42 0
牛顿法和P-Q分解法IEEE14系统潮流计算(附matlab代码)
潮流计算是电力系统中最基本,应用最广泛的一种计算,是电力系统稳定计算和故障分析的基础。本文主要介绍极坐标下牛顿法和P-Q分解法的原理以及matlab实现,适用IEEE14节点系统进行测试,计算结果和应用matpower的潮流计算完全一致。
|
算法
基于前推回代法的连续潮流计算研究【IEEE33节点】(Matlab代码实现)
基于前推回代法的连续潮流计算研究【IEEE33节点】(Matlab代码实现)
226 0
|
机器学习/深度学习 数据可视化 知识图谱
ECCV 2022 | 仅用全连接层处理视频数据,美图&NUS实现高效视频时空建模
ECCV 2022 | 仅用全连接层处理视频数据,美图&NUS实现高效视频时空建模
|
机器学习/深度学习 数据可视化 算法
SIGIR 2022 | 当多层级遇到多兴趣:快手联合武汉大学提出用于序列推荐的多粒度神经模型
SIGIR 2022 | 当多层级遇到多兴趣:快手联合武汉大学提出用于序列推荐的多粒度神经模型
162 0
下一篇
无影云桌面