长时序建模问题新解,斩获ACM MM

简介: ACMMM(ACM International Conference on Multimedia, 国际多媒体会议)是ACM多媒体领域的顶级会议,也是中国计算机学会推荐的A类国际学术会议,每年举办一次。其接收的论文覆盖了多媒体、多媒体检索、机器学习、人工智能、视觉、数据科学、HCI、多媒体信号处理以及医疗保健、教育、娱乐等多个领域的众多研究方向。

论文题目

Enlarging the Long-time Dependencies via RL-based Memory Network in Movie Affective Analysis


论文简介

电影的情感内容理解是近年来情感计算领域的研究热点,其在电影质量评估、高潮点检测、多媒体检索等方面有着重要的应用价值。目前主流的方法(如LSTM/Transformer等)在电影级长时序序列建模中存在固有的缺陷:梯度消失/爆炸、记忆能力有限、计算量大等,针对于此,本文提出了一种基于强化学习的记忆网络用来处理长时序建模问题。具体来讲,我们引入了一个可读可写的memory bank用来存储历史信息,从而提升模型的记忆能力,然后利用强化学习(DDPG)中的策略网络和价值网络建模长时依赖,自适应地更新memory bank中的内容,同时利用强化学习的one-step时序差分的优化方式来避免BPTT中的梯度消失/爆炸的问题。为了验证我们方法的有效性,我们在情感预测任务的LIRIS-ACCEDE数据集上以及音乐情感预测、视频摘要等任务的相关数据集上进行了实验,结果均达到了SOTA。该方法在业务数据应用而得到的模型,在AI内容体检,北斗智投和影视元素内容图谱等业务场景得到了广泛应用。


论文作者

张杰、赵寅、钱凯

(作者均来自阿里巴巴文娱AI大脑北斗星团队)


阿里文娱北斗星AI大脑

通过大数据和AI挖掘用户需求,建立内容采买结构化评估、适配性选角、AI成片体检、排播、数字化宣发等能力,以支撑内容全生命周期辅助决策,从而达到为平台降本增效的目的。

相关文章
|
开发工具 git
【git 实用指南】git 上传代码
【git 实用指南】git 上传代码
366 2
|
存储 数据库 索引
Python新手常见问题一:列表、元组、集合、字典区别是什么?
本文针对Python编程新手常遇到的问题,详细阐述了列表(List)、元组(Tuple)、集合(Set)和字典(Dictionary)这四种数据结构的核心区别。列表是一种有序且可变的数据序列,允许元素重复;元组同样有序但不可变,其内容一旦创建就不能修改;集合是无序、不重复的元素集,强调唯一性,主要用于数学意义上的集合操作;而字典则是键值对的映射容器,其中键必须唯一,而值可以任意,它提供了一种通过键查找对应值的有效方式。通过对这些基本概念和特性的对比讲解,旨在帮助初学者更好地理解并运用这些数据类型来解决实际编程问题。
3348 1
|
2月前
|
人工智能 API 调度
在 VSCode 中薅大模型羊毛?我用 Kilo Code + AI Ping 实现大模型智能编程
如今,借助开放的大模型调度平台,普通开发者也能灵活接入高性能大模型。 Kilo Code + 兼容 OpenAI 协议平台的组合,体现了技术民主化的趋势——让创新不再被使用门槛阻挡。
957 0
|
10月前
|
机器学习/深度学习 存储 人工智能
Qlib:华尔街颤抖!微软开源金融AI量化投资神器,助力智能投研
Qlib是微软亚洲研究院推出的开源AI量化投资平台,提供从数据处理、模型训练到组合管理的全流程支持,内置高性能数据基础设施和多种机器学习模型。
3973 87
Qlib:华尔街颤抖!微软开源金融AI量化投资神器,助力智能投研
|
JavaScript 算法 前端开发
虚拟 DOM 如何提高应用的性能?
虚拟 DOM 通过减少真实 DOM 操作、高效的 Diff 算法、提升渲染性能、跨平台能力以及优化内存管理等多种方式,全面提高了应用的性能,为用户提供了更流畅、高效的交互体验,尤其在构建大型、复杂的前端应用时,其性能优势更加显著。
338 58
|
存储 弹性计算 监控
从外到内:阿里云弹性与资源交付效率的全景透视
本文介绍了弹性服务的概念及其在云计算中的重要性。弹性服务通过动态调整云资源,帮助用户应对流量波动,降低成本并提高自动化水平。文中详细探讨了如何从“使用弹性”迈向“善用弹性”,包括定时任务、报警任务和目标追踪等伸缩模式的应用。同时,文章还介绍了阿里云在ECS弹性能力方面的建设成果,如每分钟交付万台实例的能力,并分享了汇量科技和Auto MQ两个客户案例的成功实践。最后,展望了未来在弹性计算领域的技术创新和发展方向,强调了持续优化和提升弹性能力的重要性。
|
机器学习/深度学习 算法 Unix
循环编码:时间序列中周期性特征的一种常用编码方式
循环编码是深度学习中处理周期性数据的一种技术,常用于时间序列预测。它将周期性特征(如小时、日、月)转换为网络可理解的形式,帮助模型识别周期性变化。传统的one-hot编码将时间特征转换为分类特征,而循环编码利用正弦和余弦转换,保持时间顺序信息。通过将时间戳转换为弧度并应用sin和cos,每个原始特征只映射到两个新特征,减少了特征数量。这种方法在神经网络中有效,但在树模型中可能需谨慎使用。
1872 5
|
机器学习/深度学习 人工智能 算法
深度学习之材料性能预测
基于深度学习的材料性能预测是材料科学领域的一个前沿研究方向,它结合了人工智能和材料学,通过分析和建模复杂的材料数据,来预测材料的性能和特性。
713 4
|
机器学习/深度学习 算法 算法框架/工具
深度学习中epoch、batch、batch size和iterations详解
深度学习中epoch、batch、batch size和iterations详解
1941 0