【重磅】文娱技术喜提多篇ACM MM论文

简介: 2021ACM MM(ACM International Conference on Multimedia),阿里巴巴文娱技术共4篇论文被收录。研究成果分别是:视频修复、目标检测器、视频质量评估、情感计算 技术领域。

Deep Interactive Video Inpainting: an Invisibility Cloak for Harry Potter

作者

陈诚 华中科技大学、阿里巴巴摩酷实验室

蔡佳音 清华大学、阿里巴巴摩酷实验室

汤旭 阿里巴巴摩酷实验室

胡尧 阿里巴巴摩酷实验室

王兴刚 华中科技大学

袁春 清华大学

白翔 华中科技大学

柏松 牛津大学、阿里巴巴摩酷实验室

在本文中,阿里巴巴摩酷实验室提出了一个新的交互式视频修复任务和一个对应的端到端的框架。据调研,这是第一个基于深度学习的交互式视频修复方法,仅使用任意的用户涂鸦作为指导信息,而不是每一帧的蒙版注释。通过用户在某一帧上的涂鸦,摩酷实验室的方法可以在整个视频中同时执行交互式视频目标分割和视频修复任务,同时具有学术、娱乐和商业应用价值。

利用一个共享的时空记忆模块,它将交互式视频对象分割和视频修复任务结合到一个端到端的框架中。在此框架中,具有对象掩码(用户的涂鸦或网络预测的对象掩码)的历史帧输入到共享的时空记忆模块,来帮助当前帧的分割和修复。此外,允许用户迭代细化分割结果,这可以有效地改善视频对象分割失败的修复结果,从而使用户即使在具有挑战性的序列上也可以获得高质量的视频修复结果。

定性和定量的实验结果证明了该方法的优越性。

image.png

Decoupled IoU Regression for Object Detection

作者

高龑 阿里巴巴摩酷实验室

王启萌 华中科技大学、阿里巴巴摩酷实验室

汤旭 阿里巴巴摩酷实验室

王昊臣 阿里巴巴摩酷实验室

丁飞 阿里巴巴摩酷实验室

李静 阿里巴巴摩酷实验室

胡尧 阿里巴巴摩酷实验室

非极大值抑制(NMS)广泛用于目标检测器中,用于去除重复的边界框。NMS 的置信度与真实定位置信度之间的不一致严重影响了检测性能。先前的工作提出预测IoU以改进 NMS,而准确预测 IoU 仍然是一个具有挑战性的问题。

在本文中,分析了现有IoU预测方式的缺陷,提出了一种新颖的解耦 IoU 回归模型(DIR),将先前复杂的定位置信度指标 IoU 解耦为两个新指标Purity和Integrity并分别对其进行预测。此外,文中提出了一种简单但有效的特征重新对齐方法,以hindsight的方式预测IoU,可以使映射更加稳定。

大量实验证明,文中的方法可以方便地集成到现有的两阶段目标检测器中,并显着提高其性能。

image.png

Perceptual Quality Assessment of Internet Videos

作者

许家华 中国科学技术大学,阿里巴巴摩酷实验室

李静 阿里巴巴摩酷实验室

周星光 阿里巴巴摩酷实验室

周玮 中国科学技术大学

王百超 阿里巴巴摩酷实验室

陈志波 中国科学技术大学

由于在线视频网站与社交媒体平台的迅速流行,UGC,PGC和OGC(User, Professionally and Occupationally Generated Content)等网络视频被大量传输及分享。为了对现有视频进行有效的质量评价,摩酷实验室建立了一个包含1072个视频的网络视频质量评价数据集NET-1k。一方面,多个质量评价指标被用于筛选源视频序列,以最大化有限数据集内的内容及失真多样性。另一方面,概率图模型被用于清洗带有噪声的主观打分,以保证数据标签的真实有效性。

基于网络视频的特性,文中提出了模型STDAM(Spatio-Temporal Distortion-Aware Model)。第一,该模型对视频质量预测时无需高清参考源,适用于大多数业务场景;第二,通过在大型图像数据集上的预训练,模型能够适应复杂内容;第三,在模型中引入图卷积与注意力模块用于提取与增强输入视频的特征,处理空域失真。此外,在光流模块中利用运动信息,并通过双向LSTM模块将帧级别特征融合为视频级别特征用于衡量时域失真。模型STDAM在自建数据集NET-1k上性能优异,且在跨数据集验证实验中展现出良好的泛化性能。

Pairwise Emotional Relationship Recognition in Drama Videos: Dataset and Benchmark

作者:Xun Gao, Yin Zhao, jie Zhang, Longjun Cai作者均来自阿里巴巴阿里文娱AI大脑北斗星团队

本文首次提出成对演员情感关系识别(Pairwise Emotional Relationship Recognition, PERR)任务, 其目标是在给定的视频片段中, 通过视频背景音乐、字幕文本和交互演员的面部表情、行为举止、对话等多种模态信息,识别成对演员的情感关系是亲密、敌对或者中性。

针对此任务,本文收集了一个大规模的多模态标注的数据集ERATO, 并提出了同步多模态-时序注意力单元来处理多模态信息流。本文提出的多模态融合机制可以扩展到多个任务,并在两个数据集上优于现有方法。

image.png

1 亲密或者敌对?

从图中可以明显看出女士的情绪是负向的,但我们可以从两人的谈话以及男人温柔安慰和抚摸女人脸庞来推断出两人的情感关系是亲密的。

【后续将会陆续推出文章的详细解读和分享活动,欢迎关注】

摩酷实验室】

阿里巴巴从事文娱智能研发的顶级团队,其研究范围包括:计算机视觉、机器学习、搜索与推荐等,团队拥有多位业内资深专家,并已在 IJCAI/KDD/CVPR/ICML/CIKM 等多个人工智能顶级会议上发表了数十篇论文。

摩酷实验室通过打造视频内容生产全链路的一站式解决方案,以技术赋能视频行业上下游,实现科技与艺术的深度结合。

【阿里文娱AI大脑北斗星团队】

通过大数据和AI挖掘用户需求,建立内容采买结构化评估、适配性选角、AI成片体检、排播、数字化宣发等能力,以支撑内容全生命周期辅助决策,从而达到为平台降本增效的目的。


相关文章
|
传感器 人工智能 算法
AI概述:阿里文娱智能算法的新应用
阿里巴巴文娱-智能算法的新应用方向
AI概述:阿里文娱智能算法的新应用
|
存储 缓存 容灾
AIGC 商业化道路探索 - Stable Diffusion 商业化应用(下)
Stable Diffusion 应用到商业领域的案例越来越多,商用场景下的技术架构应当如何构建?本文基于阿里云近期的一个 Stable Diffusion 商业案例,对大规模底模切换、大量 LoRA 调优的场景提出一个商业场景适用的技术架构,并已实现部署交付,稳定运行。
|
存储 PyTorch 算法框架/工具
Tensor to img && imge to tensor (pytorch的tensor转换)
Tensor to img && imge to tensor (pytorch的tensor转换)
|
9月前
|
人工智能 自然语言处理 机器人
今日AI论文推荐:ReCamMaster、PLADIS、SmolDocling、FlowTok
由浙江大学、快手科技等机构提出的ReCamMaster是一个相机控制的生成式视频重渲染框架,可以使用新的相机轨迹重现输入视频的动态场景。该工作的核心创新在于利用预训练的文本到视频模型的生成能力,通过一种简单但强大的视频条件机制。为克服高质量训练数据的稀缺问题,研究者使用虚幻引擎5构建了一个全面的多相机同步视频数据集,涵盖多样化的场景和相机运动。
455 2
今日AI论文推荐:ReCamMaster、PLADIS、SmolDocling、FlowTok
|
测试技术 Python
手动解决Python模块和包依赖冲突的具体步骤是什么?
需要注意的是,手动解决依赖冲突可能需要一定的时间和经验,并且需要谨慎操作,避免引入新的问题。在实际操作中,还可以结合使用其他方法,如虚拟环境等,来更好地管理和解决依赖冲突😉。
|
10月前
|
机器学习/深度学习 算法 PyTorch
DeepSeek 背后的技术:GRPO,基于群组采样的高效大语言模型强化学习训练方法详解
强化学习(RL)是提升大型语言模型(LLM)推理能力的重要手段,尤其在复杂推理任务中表现突出。DeepSeek团队通过群组相对策略优化(GRPO)方法,在DeepSeek-Math和DeepSeek-R1模型中取得了突破性成果,显著增强了数学推理和问题解决能力。GRPO无需价值网络,采用群组采样和相对优势估计,有效解决了传统RL应用于语言模型时的挑战,提升了训练效率和稳定性。实际应用中,DeepSeek-Math和DeepSeek-R1分别在数学推理和复杂推理任务中展现了卓越性能。未来研究将聚焦于改进优势估计、自适应超参数调整及理论分析,进一步拓展语言模型的能力边界。
1554 8
DeepSeek 背后的技术:GRPO,基于群组采样的高效大语言模型强化学习训练方法详解
|
并行计算 PyTorch 算法框架/工具
NumPy 1.26 中文官方指南(三)(4)
NumPy 1.26 中文官方指南(三)
319 1
|
12月前
|
机器学习/深度学习 数据采集 数据挖掘
使用Python实现智能食品消费趋势分析的深度学习模型
使用Python实现智能食品消费趋势分析的深度学习模型
328 18
|
人工智能 云计算
阿里包揽中国估值最高的5家大模型独角兽
【2月更文挑战第17天】阿里包揽中国估值最高的5家大模型独角兽
374 3
阿里包揽中国估值最高的5家大模型独角兽
|
人工智能 安全 区块链
区块链与人工智能的融合道路:揭秘未来科技新风口
在科技创新的浪潮中,区块链与人工智能正交汇融合,如双星辉映,激发无限潜能。区块链以去中心化、不可篡改的特性革新数据安全与信任;AI则以强大算法引领工业革命。两者融合,为AI提供安全数据基础,使数据可追溯、不可篡改,同时利用AI提升区块链效率与自动化水平,加速交易验证,最终在金融、医疗等领域催生创新应用,深刻影响社会进步与民众生活,成为未来技术发展的核心动力。
924 1