【重磅】文娱技术喜提多篇ACM MM论文

简介: 2021ACM MM(ACM International Conference on Multimedia),阿里巴巴文娱技术共4篇论文被收录。研究成果分别是:视频修复、目标检测器、视频质量评估、情感计算 技术领域。

Deep Interactive Video Inpainting: an Invisibility Cloak for Harry Potter

作者

陈诚 华中科技大学、阿里巴巴摩酷实验室

蔡佳音 清华大学、阿里巴巴摩酷实验室

汤旭 阿里巴巴摩酷实验室

胡尧 阿里巴巴摩酷实验室

王兴刚 华中科技大学

袁春 清华大学

白翔 华中科技大学

柏松 牛津大学、阿里巴巴摩酷实验室

在本文中,阿里巴巴摩酷实验室提出了一个新的交互式视频修复任务和一个对应的端到端的框架。据调研,这是第一个基于深度学习的交互式视频修复方法,仅使用任意的用户涂鸦作为指导信息,而不是每一帧的蒙版注释。通过用户在某一帧上的涂鸦,摩酷实验室的方法可以在整个视频中同时执行交互式视频目标分割和视频修复任务,同时具有学术、娱乐和商业应用价值。

利用一个共享的时空记忆模块,它将交互式视频对象分割和视频修复任务结合到一个端到端的框架中。在此框架中,具有对象掩码(用户的涂鸦或网络预测的对象掩码)的历史帧输入到共享的时空记忆模块,来帮助当前帧的分割和修复。此外,允许用户迭代细化分割结果,这可以有效地改善视频对象分割失败的修复结果,从而使用户即使在具有挑战性的序列上也可以获得高质量的视频修复结果。

定性和定量的实验结果证明了该方法的优越性。

image.png

Decoupled IoU Regression for Object Detection

作者

高龑 阿里巴巴摩酷实验室

王启萌 华中科技大学、阿里巴巴摩酷实验室

汤旭 阿里巴巴摩酷实验室

王昊臣 阿里巴巴摩酷实验室

丁飞 阿里巴巴摩酷实验室

李静 阿里巴巴摩酷实验室

胡尧 阿里巴巴摩酷实验室

非极大值抑制(NMS)广泛用于目标检测器中,用于去除重复的边界框。NMS 的置信度与真实定位置信度之间的不一致严重影响了检测性能。先前的工作提出预测IoU以改进 NMS,而准确预测 IoU 仍然是一个具有挑战性的问题。

在本文中,分析了现有IoU预测方式的缺陷,提出了一种新颖的解耦 IoU 回归模型(DIR),将先前复杂的定位置信度指标 IoU 解耦为两个新指标Purity和Integrity并分别对其进行预测。此外,文中提出了一种简单但有效的特征重新对齐方法,以hindsight的方式预测IoU,可以使映射更加稳定。

大量实验证明,文中的方法可以方便地集成到现有的两阶段目标检测器中,并显着提高其性能。

image.png

Perceptual Quality Assessment of Internet Videos

作者

许家华 中国科学技术大学,阿里巴巴摩酷实验室

李静 阿里巴巴摩酷实验室

周星光 阿里巴巴摩酷实验室

周玮 中国科学技术大学

王百超 阿里巴巴摩酷实验室

陈志波 中国科学技术大学

由于在线视频网站与社交媒体平台的迅速流行,UGC,PGC和OGC(User, Professionally and Occupationally Generated Content)等网络视频被大量传输及分享。为了对现有视频进行有效的质量评价,摩酷实验室建立了一个包含1072个视频的网络视频质量评价数据集NET-1k。一方面,多个质量评价指标被用于筛选源视频序列,以最大化有限数据集内的内容及失真多样性。另一方面,概率图模型被用于清洗带有噪声的主观打分,以保证数据标签的真实有效性。

基于网络视频的特性,文中提出了模型STDAM(Spatio-Temporal Distortion-Aware Model)。第一,该模型对视频质量预测时无需高清参考源,适用于大多数业务场景;第二,通过在大型图像数据集上的预训练,模型能够适应复杂内容;第三,在模型中引入图卷积与注意力模块用于提取与增强输入视频的特征,处理空域失真。此外,在光流模块中利用运动信息,并通过双向LSTM模块将帧级别特征融合为视频级别特征用于衡量时域失真。模型STDAM在自建数据集NET-1k上性能优异,且在跨数据集验证实验中展现出良好的泛化性能。

Pairwise Emotional Relationship Recognition in Drama Videos: Dataset and Benchmark

作者:Xun Gao, Yin Zhao, jie Zhang, Longjun Cai作者均来自阿里巴巴阿里文娱AI大脑北斗星团队

本文首次提出成对演员情感关系识别(Pairwise Emotional Relationship Recognition, PERR)任务, 其目标是在给定的视频片段中, 通过视频背景音乐、字幕文本和交互演员的面部表情、行为举止、对话等多种模态信息,识别成对演员的情感关系是亲密、敌对或者中性。

针对此任务,本文收集了一个大规模的多模态标注的数据集ERATO, 并提出了同步多模态-时序注意力单元来处理多模态信息流。本文提出的多模态融合机制可以扩展到多个任务,并在两个数据集上优于现有方法。

image.png

1 亲密或者敌对?

从图中可以明显看出女士的情绪是负向的,但我们可以从两人的谈话以及男人温柔安慰和抚摸女人脸庞来推断出两人的情感关系是亲密的。

【后续将会陆续推出文章的详细解读和分享活动,欢迎关注】

摩酷实验室】

阿里巴巴从事文娱智能研发的顶级团队,其研究范围包括:计算机视觉、机器学习、搜索与推荐等,团队拥有多位业内资深专家,并已在 IJCAI/KDD/CVPR/ICML/CIKM 等多个人工智能顶级会议上发表了数十篇论文。

摩酷实验室通过打造视频内容生产全链路的一站式解决方案,以技术赋能视频行业上下游,实现科技与艺术的深度结合。

【阿里文娱AI大脑北斗星团队】

通过大数据和AI挖掘用户需求,建立内容采买结构化评估、适配性选角、AI成片体检、排播、数字化宣发等能力,以支撑内容全生命周期辅助决策,从而达到为平台降本增效的目的。


相关文章
|
6月前
|
机器学习/深度学习 人工智能 算法
【AAAI 2024】再创佳绩!阿里云人工智能平台PAI多篇论文入选
阿里云人工智能平台PAI发表的多篇论文在AAAI-2024上正式亮相发表。AAAI是由国际人工智能促进协会主办的年会,是人工智能领域中历史最悠久、涵盖内容最广泛的国际顶级学术会议之一,也是中国计算机学会(CCF)推荐的A类国际学术会议。论文成果是阿里云与浙江大学、华南理工大学联合培养项目等共同研发,深耕以通用人工智能(AGI)为目标的一系列基础科学与工程问题,包括多模态理解模型、小样本类增量学习、深度表格学习和文档版面此次入选意味着阿里云人工智能平台PAI自研的深度学习算法达到了全球业界先进水平,获得了国际学者的认可,展现了阿里云人工智能技术创新在国际上的竞争力。
|
机器学习/深度学习 人工智能 安全
隐语团队研究成果再创佳绩,两篇论文分别被USENIX ATC'23和IJCAI'23接收!
隐语团队研究成果再创佳绩,两篇论文分别被USENIX ATC'23和IJCAI'23接收!
199 0
|
存储 Cloud Native 容灾
再创佳绩!阿里云4篇论文入选顶会FAST 2023
再创佳绩!阿里云4篇论文入选顶会FAST 2023
497 0
|
机器学习/深度学习 编解码 网络协议
创历届最好成绩!阿里云6篇论文入选顶会SIGCOMM2022
创历届最好成绩!阿里云6篇论文入选顶会SIGCOMM2022
277 0
【OpenCall】ICASSP2023通用会议理解及生成挑战赛邀请函
【OpenCall】ICASSP2023通用会议理解及生成挑战赛邀请函
|
机器学习/深度学习 人工智能 自然语言处理
CVPR 2021大奖公布!何恺明获最佳论文提名,代码已开源!
深度生成模型可以在高分辨率下进行逼真的图像合成。但对于许多应用来说,这还不够:内容创作还需要可控。虽然最近有几项工作研究了如何分解数据中的潜在变化因素,但它们大多在二维中操作,忽略了我们的世界是三维的。
CVPR 2021大奖公布!何恺明获最佳论文提名,代码已开源!
|
机器学习/深度学习 自然语言处理 算法
|
机器学习/深度学习 存储 分布式计算
阿里云飞天论文获国际架构顶会 ATC 2021最佳论文:全球仅三篇
近日,计算机系统结构国际顶级学术会议 USENIX ATC在线上举行。ATC 始办于1992年,是由USENIX组织的计算机系统领域的顶级会议,至今已成功举办31届,计算机系统领域中Oak语言(JAVA语言的前身)、QEMU、ZooKeeper等一系列有影响力的研究成果都在USENIXATC发表或公布。ATC 对论文要求极高,必须满足基础性贡献、前瞻性影响和坚实系统实现的要求,本次论文录取率仅为18%,全球仅选取3篇最佳论文。
1263 0
阿里云飞天论文获国际架构顶会 ATC 2021最佳论文:全球仅三篇
|
云安全 缓存 弹性计算
阿里云与清华大学合作论文被ACM旗舰安全会议收录
日前,由阿里云安全团队和清华大学、George Mason University、Ohio State University的多位研究人员共同合著的论文《See through Walls: Detecting Malware in SGX Enclaves with SGX-Bouncer》ACM AsiaCCS 2021会议上正式发表。
625 0
|
机器学习/深度学习 搜索推荐 算法
阿里又出排序新模型,还被国际顶会认可了 | AAAI-20 oral
DMR提供了一个Matching和Ranking联合训练的框架,U2I相关性表征的模块可以很容易嵌到现有的CTR模型中,相当于在你原来的模型上加了一些有效的特征。我们后续的CTR模型迭代会基于DMR的框架不断加入新的改进。
2991 0
阿里又出排序新模型,还被国际顶会认可了 | AAAI-20 oral