【重磅】文娱技术喜提多篇ACM MM论文

简介: 2021ACM MM(ACM International Conference on Multimedia),阿里巴巴文娱技术共4篇论文被收录。研究成果分别是:视频修复、目标检测器、视频质量评估、情感计算 技术领域。

Deep Interactive Video Inpainting: an Invisibility Cloak for Harry Potter

作者

陈诚 华中科技大学、阿里巴巴摩酷实验室

蔡佳音 清华大学、阿里巴巴摩酷实验室

汤旭 阿里巴巴摩酷实验室

胡尧 阿里巴巴摩酷实验室

王兴刚 华中科技大学

袁春 清华大学

白翔 华中科技大学

柏松 牛津大学、阿里巴巴摩酷实验室

在本文中,阿里巴巴摩酷实验室提出了一个新的交互式视频修复任务和一个对应的端到端的框架。据调研,这是第一个基于深度学习的交互式视频修复方法,仅使用任意的用户涂鸦作为指导信息,而不是每一帧的蒙版注释。通过用户在某一帧上的涂鸦,摩酷实验室的方法可以在整个视频中同时执行交互式视频目标分割和视频修复任务,同时具有学术、娱乐和商业应用价值。

利用一个共享的时空记忆模块,它将交互式视频对象分割和视频修复任务结合到一个端到端的框架中。在此框架中,具有对象掩码(用户的涂鸦或网络预测的对象掩码)的历史帧输入到共享的时空记忆模块,来帮助当前帧的分割和修复。此外,允许用户迭代细化分割结果,这可以有效地改善视频对象分割失败的修复结果,从而使用户即使在具有挑战性的序列上也可以获得高质量的视频修复结果。

定性和定量的实验结果证明了该方法的优越性。

image.png

Decoupled IoU Regression for Object Detection

作者

高龑 阿里巴巴摩酷实验室

王启萌 华中科技大学、阿里巴巴摩酷实验室

汤旭 阿里巴巴摩酷实验室

王昊臣 阿里巴巴摩酷实验室

丁飞 阿里巴巴摩酷实验室

李静 阿里巴巴摩酷实验室

胡尧 阿里巴巴摩酷实验室

非极大值抑制(NMS)广泛用于目标检测器中,用于去除重复的边界框。NMS 的置信度与真实定位置信度之间的不一致严重影响了检测性能。先前的工作提出预测IoU以改进 NMS,而准确预测 IoU 仍然是一个具有挑战性的问题。

在本文中,分析了现有IoU预测方式的缺陷,提出了一种新颖的解耦 IoU 回归模型(DIR),将先前复杂的定位置信度指标 IoU 解耦为两个新指标Purity和Integrity并分别对其进行预测。此外,文中提出了一种简单但有效的特征重新对齐方法,以hindsight的方式预测IoU,可以使映射更加稳定。

大量实验证明,文中的方法可以方便地集成到现有的两阶段目标检测器中,并显着提高其性能。

image.png

Perceptual Quality Assessment of Internet Videos

作者

许家华 中国科学技术大学,阿里巴巴摩酷实验室

李静 阿里巴巴摩酷实验室

周星光 阿里巴巴摩酷实验室

周玮 中国科学技术大学

王百超 阿里巴巴摩酷实验室

陈志波 中国科学技术大学

由于在线视频网站与社交媒体平台的迅速流行,UGC,PGC和OGC(User, Professionally and Occupationally Generated Content)等网络视频被大量传输及分享。为了对现有视频进行有效的质量评价,摩酷实验室建立了一个包含1072个视频的网络视频质量评价数据集NET-1k。一方面,多个质量评价指标被用于筛选源视频序列,以最大化有限数据集内的内容及失真多样性。另一方面,概率图模型被用于清洗带有噪声的主观打分,以保证数据标签的真实有效性。

基于网络视频的特性,文中提出了模型STDAM(Spatio-Temporal Distortion-Aware Model)。第一,该模型对视频质量预测时无需高清参考源,适用于大多数业务场景;第二,通过在大型图像数据集上的预训练,模型能够适应复杂内容;第三,在模型中引入图卷积与注意力模块用于提取与增强输入视频的特征,处理空域失真。此外,在光流模块中利用运动信息,并通过双向LSTM模块将帧级别特征融合为视频级别特征用于衡量时域失真。模型STDAM在自建数据集NET-1k上性能优异,且在跨数据集验证实验中展现出良好的泛化性能。

Pairwise Emotional Relationship Recognition in Drama Videos: Dataset and Benchmark

作者:Xun Gao, Yin Zhao, jie Zhang, Longjun Cai作者均来自阿里巴巴阿里文娱AI大脑北斗星团队

本文首次提出成对演员情感关系识别(Pairwise Emotional Relationship Recognition, PERR)任务, 其目标是在给定的视频片段中, 通过视频背景音乐、字幕文本和交互演员的面部表情、行为举止、对话等多种模态信息,识别成对演员的情感关系是亲密、敌对或者中性。

针对此任务,本文收集了一个大规模的多模态标注的数据集ERATO, 并提出了同步多模态-时序注意力单元来处理多模态信息流。本文提出的多模态融合机制可以扩展到多个任务,并在两个数据集上优于现有方法。

image.png

1 亲密或者敌对?

从图中可以明显看出女士的情绪是负向的,但我们可以从两人的谈话以及男人温柔安慰和抚摸女人脸庞来推断出两人的情感关系是亲密的。

【后续将会陆续推出文章的详细解读和分享活动,欢迎关注】

摩酷实验室】

阿里巴巴从事文娱智能研发的顶级团队,其研究范围包括:计算机视觉、机器学习、搜索与推荐等,团队拥有多位业内资深专家,并已在 IJCAI/KDD/CVPR/ICML/CIKM 等多个人工智能顶级会议上发表了数十篇论文。

摩酷实验室通过打造视频内容生产全链路的一站式解决方案,以技术赋能视频行业上下游,实现科技与艺术的深度结合。

【阿里文娱AI大脑北斗星团队】

通过大数据和AI挖掘用户需求,建立内容采买结构化评估、适配性选角、AI成片体检、排播、数字化宣发等能力,以支撑内容全生命周期辅助决策,从而达到为平台降本增效的目的。


相关文章
|
2月前
|
机器学习/深度学习 人工智能 算法
【AAAI 2024】再创佳绩!阿里云人工智能平台PAI多篇论文入选
阿里云人工智能平台PAI发表的多篇论文在AAAI-2024上正式亮相发表。AAAI是由国际人工智能促进协会主办的年会,是人工智能领域中历史最悠久、涵盖内容最广泛的国际顶级学术会议之一,也是中国计算机学会(CCF)推荐的A类国际学术会议。论文成果是阿里云与浙江大学、华南理工大学联合培养项目等共同研发,深耕以通用人工智能(AGI)为目标的一系列基础科学与工程问题,包括多模态理解模型、小样本类增量学习、深度表格学习和文档版面此次入选意味着阿里云人工智能平台PAI自研的深度学习算法达到了全球业界先进水平,获得了国际学者的认可,展现了阿里云人工智能技术创新在国际上的竞争力。
|
11月前
|
机器学习/深度学习 数据处理 开发工具
带你读《2022技术人的百宝黑皮书》——国际顶会OSDI首度收录淘宝系统论文, 端云协同智能获大会主旨演讲推荐(2)
带你读《2022技术人的百宝黑皮书》——国际顶会OSDI首度收录淘宝系统论文, 端云协同智能获大会主旨演讲推荐(2)
|
11月前
|
机器学习/深度学习 存储 监控
带你读《2022技术人的百宝黑皮书》——国际顶会OSDI首度收录淘宝系统论文, 端云协同智能获大会主旨演讲推荐(4)
带你读《2022技术人的百宝黑皮书》——国际顶会OSDI首度收录淘宝系统论文, 端云协同智能获大会主旨演讲推荐(4)
|
11月前
|
机器学习/深度学习 自然语言处理 PyTorch
带你读《2022技术人的百宝黑皮书》——国际顶会OSDI首度收录淘宝系统论文, 端云协同智能获大会主旨演讲推荐(5)
带你读《2022技术人的百宝黑皮书》——国际顶会OSDI首度收录淘宝系统论文, 端云协同智能获大会主旨演讲推荐(5)
140 0
|
11月前
|
UED iOS开发 容器
带你读《2022技术人的百宝黑皮书》——国际顶会OSDI首度收录淘宝系统论文, 端云协同智能获大会主旨演讲推荐(3)
带你读《2022技术人的百宝黑皮书》——国际顶会OSDI首度收录淘宝系统论文, 端云协同智能获大会主旨演讲推荐(3)
|
11月前
|
机器学习/深度学习 算法 安全
带你读《2022技术人的百宝黑皮书》——国际顶会OSDI首度收录淘宝系统论文, 端云协同智能获大会主旨演讲推荐(1)
带你读《2022技术人的百宝黑皮书》——国际顶会OSDI首度收录淘宝系统论文, 端云协同智能获大会主旨演讲推荐(1)
121 0
|
机器学习/深度学习 人工智能
重磅!李飞飞 CS231n 最全学霸笔记精炼版来了
重磅!李飞飞 CS231n 最全学霸笔记精炼版来了
221 0
重磅!李飞飞 CS231n 最全学霸笔记精炼版来了
|
机器学习/深度学习 自然语言处理 算法
TPAMI 2021 | 清华大学朱文武团队:首篇课程学习综述
来自清华大学的研究者王鑫、陈禹东、朱文武撰写了一篇名为《A Survey on Curriculum Learning》的课程学习综述论文,该论文已被TPAMI 2021收录,本文对其展开介绍。
374 0
TPAMI 2021 | 清华大学朱文武团队:首篇课程学习综述
|
云安全 缓存 弹性计算
阿里云与清华大学合作论文被ACM旗舰安全会议收录
日前,由阿里云安全团队和清华大学、George Mason University、Ohio State University的多位研究人员共同合著的论文《See through Walls: Detecting Malware in SGX Enclaves with SGX-Bouncer》ACM AsiaCCS 2021会议上正式发表。
575 0
|
机器学习/深度学习 人工智能 自然语言处理
DeepMind研究员开课啦!联合UCL打造DL系列讲座,完结全免
DeepMind研究员开课啦!联合UCL打造DL系列讲座,完结全免
151 0