【重磅】文娱技术喜提多篇ACM MM论文

简介: 2021ACM MM(ACM International Conference on Multimedia),阿里巴巴文娱技术共4篇论文被收录。研究成果分别是:视频修复、目标检测器、视频质量评估、情感计算 技术领域。

Deep Interactive Video Inpainting: an Invisibility Cloak for Harry Potter

作者

陈诚 华中科技大学、阿里巴巴摩酷实验室

蔡佳音 清华大学、阿里巴巴摩酷实验室

汤旭 阿里巴巴摩酷实验室

胡尧 阿里巴巴摩酷实验室

王兴刚 华中科技大学

袁春 清华大学

白翔 华中科技大学

柏松 牛津大学、阿里巴巴摩酷实验室

在本文中,阿里巴巴摩酷实验室提出了一个新的交互式视频修复任务和一个对应的端到端的框架。据调研,这是第一个基于深度学习的交互式视频修复方法,仅使用任意的用户涂鸦作为指导信息,而不是每一帧的蒙版注释。通过用户在某一帧上的涂鸦,摩酷实验室的方法可以在整个视频中同时执行交互式视频目标分割和视频修复任务,同时具有学术、娱乐和商业应用价值。

利用一个共享的时空记忆模块,它将交互式视频对象分割和视频修复任务结合到一个端到端的框架中。在此框架中,具有对象掩码(用户的涂鸦或网络预测的对象掩码)的历史帧输入到共享的时空记忆模块,来帮助当前帧的分割和修复。此外,允许用户迭代细化分割结果,这可以有效地改善视频对象分割失败的修复结果,从而使用户即使在具有挑战性的序列上也可以获得高质量的视频修复结果。

定性和定量的实验结果证明了该方法的优越性。

image.png

Decoupled IoU Regression for Object Detection

作者

高龑 阿里巴巴摩酷实验室

王启萌 华中科技大学、阿里巴巴摩酷实验室

汤旭 阿里巴巴摩酷实验室

王昊臣 阿里巴巴摩酷实验室

丁飞 阿里巴巴摩酷实验室

李静 阿里巴巴摩酷实验室

胡尧 阿里巴巴摩酷实验室

非极大值抑制(NMS)广泛用于目标检测器中,用于去除重复的边界框。NMS 的置信度与真实定位置信度之间的不一致严重影响了检测性能。先前的工作提出预测IoU以改进 NMS,而准确预测 IoU 仍然是一个具有挑战性的问题。

在本文中,分析了现有IoU预测方式的缺陷,提出了一种新颖的解耦 IoU 回归模型(DIR),将先前复杂的定位置信度指标 IoU 解耦为两个新指标Purity和Integrity并分别对其进行预测。此外,文中提出了一种简单但有效的特征重新对齐方法,以hindsight的方式预测IoU,可以使映射更加稳定。

大量实验证明,文中的方法可以方便地集成到现有的两阶段目标检测器中,并显着提高其性能。

image.png

Perceptual Quality Assessment of Internet Videos

作者

许家华 中国科学技术大学,阿里巴巴摩酷实验室

李静 阿里巴巴摩酷实验室

周星光 阿里巴巴摩酷实验室

周玮 中国科学技术大学

王百超 阿里巴巴摩酷实验室

陈志波 中国科学技术大学

由于在线视频网站与社交媒体平台的迅速流行,UGC,PGC和OGC(User, Professionally and Occupationally Generated Content)等网络视频被大量传输及分享。为了对现有视频进行有效的质量评价,摩酷实验室建立了一个包含1072个视频的网络视频质量评价数据集NET-1k。一方面,多个质量评价指标被用于筛选源视频序列,以最大化有限数据集内的内容及失真多样性。另一方面,概率图模型被用于清洗带有噪声的主观打分,以保证数据标签的真实有效性。

基于网络视频的特性,文中提出了模型STDAM(Spatio-Temporal Distortion-Aware Model)。第一,该模型对视频质量预测时无需高清参考源,适用于大多数业务场景;第二,通过在大型图像数据集上的预训练,模型能够适应复杂内容;第三,在模型中引入图卷积与注意力模块用于提取与增强输入视频的特征,处理空域失真。此外,在光流模块中利用运动信息,并通过双向LSTM模块将帧级别特征融合为视频级别特征用于衡量时域失真。模型STDAM在自建数据集NET-1k上性能优异,且在跨数据集验证实验中展现出良好的泛化性能。

Pairwise Emotional Relationship Recognition in Drama Videos: Dataset and Benchmark

作者:Xun Gao, Yin Zhao, jie Zhang, Longjun Cai作者均来自阿里巴巴阿里文娱AI大脑北斗星团队

本文首次提出成对演员情感关系识别(Pairwise Emotional Relationship Recognition, PERR)任务, 其目标是在给定的视频片段中, 通过视频背景音乐、字幕文本和交互演员的面部表情、行为举止、对话等多种模态信息,识别成对演员的情感关系是亲密、敌对或者中性。

针对此任务,本文收集了一个大规模的多模态标注的数据集ERATO, 并提出了同步多模态-时序注意力单元来处理多模态信息流。本文提出的多模态融合机制可以扩展到多个任务,并在两个数据集上优于现有方法。

image.png

1 亲密或者敌对?

从图中可以明显看出女士的情绪是负向的,但我们可以从两人的谈话以及男人温柔安慰和抚摸女人脸庞来推断出两人的情感关系是亲密的。

【后续将会陆续推出文章的详细解读和分享活动,欢迎关注】

摩酷实验室】

阿里巴巴从事文娱智能研发的顶级团队,其研究范围包括:计算机视觉、机器学习、搜索与推荐等,团队拥有多位业内资深专家,并已在 IJCAI/KDD/CVPR/ICML/CIKM 等多个人工智能顶级会议上发表了数十篇论文。

摩酷实验室通过打造视频内容生产全链路的一站式解决方案,以技术赋能视频行业上下游,实现科技与艺术的深度结合。

【阿里文娱AI大脑北斗星团队】

通过大数据和AI挖掘用户需求,建立内容采买结构化评估、适配性选角、AI成片体检、排播、数字化宣发等能力,以支撑内容全生命周期辅助决策,从而达到为平台降本增效的目的。


相关文章
|
机器学习/深度学习 编解码 网络协议
创历届最好成绩!阿里云6篇论文入选顶会SIGCOMM2022
创历届最好成绩!阿里云6篇论文入选顶会SIGCOMM2022
291 0
|
传感器 测试技术 计算机视觉
同济、阿里获CVPR最佳学生论文,李飞飞获黄煦涛奖,近6000人线下参会(1)
同济、阿里获CVPR最佳学生论文,李飞飞获黄煦涛奖,近6000人线下参会
156 0
|
机器学习/深度学习 传感器 人工智能
同济、阿里获CVPR最佳学生论文,李飞飞获黄煦涛奖,近6000人线下参会(2)
同济、阿里获CVPR最佳学生论文,李飞飞获黄煦涛奖,近6000人线下参会
162 0
|
机器学习/深度学习 人工智能 智能设计
Intelligent Computing期刊首期论文正式发表!期刊共同主编之江实验室主任朱世强和中国工程院院士孙凝晖发表发刊词
Intelligent Computing期刊首期论文正式发表!期刊共同主编之江实验室主任朱世强和中国工程院院士孙凝晖发表发刊词
240 0
|
机器学习/深度学习 自然语言处理 算法
国际顶会OSDI首度收录淘宝系统论文,端云协同智能获大会主旨演讲推荐
大淘宝技术团队论文入选计算机系统领域顶级国际学术会议OSDI,这是淘宝系统论文首次入选该国际顶会,论文详解了阿里历经四年、自主研发的首个端到端、通用型、规模化产业应用的端云协同机器学习系统“瓦力”——Walle。OSDI特别邀请到的David Tennenhouse在大会主旨演讲中专门推荐了Walle系统,对其技术先进性和应用落地效果赞誉有加。目前,Walle 作为阿里机器学习的基础设施支持 30+APP上 的300+个算法任务。
524 0
国际顶会OSDI首度收录淘宝系统论文,端云协同智能获大会主旨演讲推荐
|
机器学习/深度学习 人工智能
重磅!李飞飞 CS231n 最全学霸笔记精炼版来了
重磅!李飞飞 CS231n 最全学霸笔记精炼版来了
271 0
重磅!李飞飞 CS231n 最全学霸笔记精炼版来了
|
机器学习/深度学习 人工智能 自然语言处理
IJCAI 2021开幕:程序主席周志华揭晓热门研究主题,杰出论文等奖项出炉
从AI学术顶会IJCAI统计的这些数据中,洞见热门研究趋势。
225 0
IJCAI 2021开幕:程序主席周志华揭晓热门研究主题,杰出论文等奖项出炉
|
机器学习/深度学习 自然语言处理 算法
|
自然语言处理 搜索推荐 算法
SIGIR-2018-EASR workshop keynote,阿士比亚:阿里巴巴智能内容生成实践
研讨会由罗格斯大学计算机系张永锋老师、加州大学圣克鲁兹分校计算机系张奕老师、清华大学计算机系张敏老师共同主办,张永锋老师现场主持。
2147 0