从 20 篇ICCV 2017录用论文,看商汤科技四大攻坚领域

简介: 本文讲的是从 20 篇ICCV 2017录用论文,看商汤科技四大攻坚领域,今秋,在以水城而闻名的威尼斯,来自世界各地的三千多位学者荟萃一堂,共赴两年一度的国际计算机视觉大会 (ICCV)。这次大会的一个重要亮点就是中国学者的强势崛起。
本文讲的是从 20 篇ICCV 2017录用论文,看商汤科技四大攻坚领域,

今秋,在以水城而闻名的威尼斯,来自世界各地的三千多位学者荟萃一堂,共赴两年一度的国际计算机视觉大会 (ICCV)。这次大会的一个重要亮点就是中国学者的强势崛起。根据组委会公开的数字,会议 40% 的论文投稿来自中国的研究者。在中国的人工智能浪潮中,商汤科技以及它与港中文的联合实验室无疑是其中最有代表性的力量。在本届 ICCV 大会,商汤科技与香港中大-商汤科技联合实验室共发表了 20 篇论文,其中包括 3 篇 Oral (录取率仅 2.09%) 和 1 篇 Spotlight,领先 Facebook(15 篇)、Google Research(10 篇)等科技巨头。

ICCV 是计算机视觉领域最高水平的国际学术会议,在其中发表的论文的量与质可以衡量一个公司或者研究机构的学术水平,以及其对未来科技发展潮流的把握。从商汤科技的 20 篇论文中,可以看到其在研究上重点发力的四大主线:

跨模态分析:让视觉与自然语言联合起来

在过去几年,随着深度学习的广泛应用,计算机视觉取得了突破性的发展,很多传统任务(比如图像分类,物体检测,场景分割等)的性能大幅度提高。但是在更高的水平上,计算机视觉开始遇到了新的瓶颈。要获得新的技术进步,一个重要的方向就是打破传统视觉任务的藩篱,把视觉理解与自然语言等其它模态的数据结合起来。商汤科技很早就捕捉了这一趋势,并投入重要力量进行开拓,取得了丰硕成果。在这一方向上,有 4 篇论文被 ICCV 2017 录用,包括一篇 Oral。

Towards Diverse and Natural Image Descriptions via a Conditional GAN (Oral).

Bo Dai, Sanja Fidler, Raquel Urtasun, Dahua Lin. 

从 20 篇ICCV 2017录用论文,看商汤科技四大攻坚领域|ICCV 2017

看图说话,也就是根据图像生成描述性标题,是今年来非常活跃的研究领域。现有的方法普遍存在一个问题,就是产生的标题很多是训练集中的表述的简单重复,读起来味同嚼蜡。这一问题的根源在于学习目标过分强调与训练集的相似性。这篇论文提出了一种新型的基于 Conditional GAN 的训练方法,把描述生成模型与评估模型合同训练。这样,评估的标准从「像不像训练集」变成「像不像人说话」,从而驱动生成模型产生更加自然、生动,并具有丰富细节的描述。这一工作为看图说话任务提供了新的思路。在 User Study 中,这种新的方法以 6:4 的胜率战胜了传统的方法。

另外两篇 paper 则从相反的方向思考,力图利用相关文本的信息来帮助提高视觉理解的能力。

Scene Graph Generation from Objects, Phrases and Caption Regions.

Yikang Li, Bolei Zhou, Wanli Ouyang, Xiaogang Wang, Kun Wang.

从 20 篇ICCV 2017录用论文,看商汤科技四大攻坚领域|ICCV 2017这篇论文把三个有密切关系的任务——物体检测,场景图生成,以及图像区域的描述联合在一起,并且利用它们之间的关系建立了一个多层次的场景描述模型——Multi-level Scene Description Network (MSDN)。通过这个联合模型,传统上分离开来的三个任务可以结合在一起进行端对端的训练,从而使得每个任务都获得性能的提升。尤其在代表对图像综合理解能力的场景图生成任务上,性能提高超过了 3%。

Learning to Disambiguate by Asking Discriminative Questions.

Yining Li, Chen Huang, Xiaoou Tang, Chen Change Loy.

从 20 篇ICCV 2017录用论文,看商汤科技四大攻坚领域|ICCV 2017

这篇论文探索了一个新的方向,即透过提出有鉴别力的问题来区分不同的视觉实体。比如当你需要区分一只白色的狗和一只黑色的狗的时候,可以提出关于颜色的问题。为了支持这个方向的探索,作者在这项工作中建立了一个新的数据集,里面含有了超过一万组包含成对图像与多个相关问题的样本;并且提出了一种新型的弱监督训练方法,可以在缺乏细致标注的条件下,同时学习到一个具有区分度的问题生成器,以及能提供准确答案的鉴别模型。

Identity-Aware Textual-Visual Matching with Latent Co-attention.

Shuang Li, Tong Xiao, Hongsheng Li, Wei Yang, Xiaogang Wang.

从 20 篇ICCV 2017录用论文,看商汤科技四大攻坚领域|ICCV 2017

特征匹配是跨模态学习的核心环节。这篇论文提出了一个新的文本与视觉特征匹配的框架。这个框架由两个阶段组成。第一阶段能迅速排除明显错误的配对,并为第二阶段的训练提供效度更高的训练样本。第二阶段通过一个新的关联注意力模型(co-attention model),把文本中的单词关联到图像中的特定区域。在三个公开数据集上(CUHK-PEDES, CUB, Flowers),本文提出的方法都显著超过现行的主流方法。

视频分析:让计算机看懂视频

虽然深度学习在图像分析中取得了巨大的成功,它在视频的理解与分析中的应用还有很长的路要走。相比于图像,视频数据具有更大的数据量以及更丰富的结构,因而也为视觉分析技术提出了更高水平的挑战。商汤科技在数年前就开始了把深度学习用于视频分析与理解的探索,提出了包括 Temporal Segmental Networks (TSN) 在内的多种有很大影响并被广泛应用的视频分析架构,并在 ActivityNet 2016 取得了冠军。在 2017 年,商汤科技以及相关实验室继续把这个方向的探索推向纵深,并在 ICCV 2017 发表了两项重量级的工作,包括一篇 Oral。

RPAN: An End-To-End Recurrent Pose-Attention Network for Action Recognition in Videos. (Oral)

Wenbin Du; Yali Wang; Yu Qiao.

从 20 篇ICCV 2017录用论文,看商汤科技四大攻坚领域|ICCV 2017

通常的视频分析模型大部分是基于 video-level 的类别进行监督学习的,这种方法的局限是难以学习到复杂的运动结构。这篇论文另辟蹊径,着力于动态人体的建模,并提出了一个新型的可以端对端训练的深度网络架构 Recurrent Pose Attention Network (RPAN)。该架构不仅可以自适应地整合人体运动姿态的特征,还能很好地学习其时空演化结构。这项工作一方面为视频动作理解提供了新的方法,另一方面作为副产品也获得了一个不错的粗粒度姿态估计的模型。

Temporal Action Detection with Structured Segment Networks.

Yue Zhao, Yuanjun Xiong, Limin Wang, Zhirong Wu, Xiaoou Tang, Dahua Lin

从 20 篇ICCV 2017录用论文,看商汤科技四大攻坚领域|ICCV 2017

时域上的动作检测是近两年兴起的新型视频分析任务。相比于传统的动作分类,这个任务更具有挑战性,不仅需要判断一个运动或者事件的类型,还需要获得它的准确起止时间。这个任务在实际场景中有很大的潜在价值,比如它可以从长时间的运动视频或者电影中自动定位到相关的精彩片段。这篇论文提出了一种新型的视频动作检测模型,它在 TSN 的基础上引入了三段结构模型以更有效地捕捉运动起始段与终结段的特征。基于这一架构,动作分类器与时间定位器可以端到端联合训练。这个方法在多个大型视频数据集上(包括 THOMOS 和 ActivityNet)取得了比现有方法超过 10 个百分点的提升。

生成对抗网络:让计算机学习创作

最近两年,由于生成对抗网络(Generative Adversarial Networks)的提出,生成模型(generative model)的学习成为一个新兴的研究方向。和传统的鉴别模型(discriminative model)主要关注信息提炼不同,生成模型需要从零开始,或者基于信息量非常有限的给定条件,产生出完整的图像,因此特别具有挑战性。这个研究方向在消费领域具有巨大的应用价值,同时它也可以通过产生训练样本的方式反哺传统领域的研究。商汤科技在这个新兴领域也积极开展研究,取得不少新的成果,并在 ICCV 2017 发表了两项相关工作,包括一篇 Oral。

StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks.n (Oral)

Han Zhang, Ttao Xu, Hongsheng Li, Shaoting Zhang, Xiaogang Wang, Xiaolei Huang, Dimitris Metaxas.

从 20 篇ICCV 2017录用论文,看商汤科技四大攻坚领域|ICCV 2017

生成高质量的图像是生成模型研究的核心问题。这篇文章提出了一个新型的生成框架,StackGAN,它能够根据简短的文字描述生成解析度为 256 x 256 的高质量图片。生成如此高解析度的照片是一个极具挑战性的问题,此前的生成模型通常只能产生大小为 64 x 64 的图片。本文提出的方法把这个困难的任务分解为两个阶段。在第一阶段,先根据文字描述产生粗粒度的草图,以第一阶段的结果作为输入,第二阶段产生高解析度的图像,并补充丰富的细节。此文还进一步提出了一种新型的条件增强技术,以改进训练过程的稳定性。和现有的生成网络相比,StackGAN 在生成图片的质量的解析度上获得了非常显著的进步。

Be Your Own Prada: Fashion Synthesis with Structural Coherence.

Shizhan Zhu, Sanja Fidler, Raquel Urtasun, Dahua Lin, Chen Change Loy

从 20 篇ICCV 2017录用论文,看商汤科技四大攻坚领域|ICCV 2017

这篇文章探索了一个极具应用价值的方向,把生成模型引入时尚领域:提出一种崭新的方法产生换装照片。具体而言,给定一个人的照片,以及对换装的描述,此文提出的方法可以根据对换装的描述,比如「黑色的短袖长裙」,产生换装后的照片。和一般的生成任务相比,换装任务更具挑战性,换装照不仅需要符合文字描述,而且需要和原照片中人体的姿态相吻合。此文提出一个两阶段的框架解决这个问题:第一阶段产生一个和人体姿态吻合的分区图,第二阶段以此为基础生成具有精细细节的服装图像。

除了在新兴方向上积极开拓,商汤科技在一些重要的核心领域,包括人脸检测、物体检测、人体姿态估计、实际场景中的身份再识别等,也持续投入,精益求精,在本届 ICCV 发表多篇相关论文。

商汤科技 ICCV 2017 论文列表:

1. 「StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks」. Han Zhang, Ttao Xu, Hongsheng Li, Shaoting Zhang, Xiaogang Wang, Xiaolei Huang, Dimitris Metaxas.

2. 「Scene Graph Generation from Objects, Phrases and Caption Regions」. Yikang Li, Bolei Zhou, Wanli Ouyang, Xiaogang Wang, Kun Wang.

3. 「Online Multi-Object Tracking Using Single Object Tracker with Spatial and Temporal Attention」. Qi Chu, Wanli Ouyang, Hongsheng Li, Xiaogang Wang, Nenghai Yu.

4. 「Learning Feature Pyramids for Human Pose Estimation」. Wei Yang, Wanli Ouyang, Shuang Li, Xiaogang Wang.

5. 「Learning Chained Deep Features and Classifiers for Cascade in Object Detection」. Wanli Ouyang, Xiaogang Wang, Kun Wang, Xin Zhu.

6. 「Identity-Aware Textual-Visual Matching with Latent Co-attention」. Shuang Li, Tong Xiao, Hongsheng Li, Wei Yang, Xiaogang Wang.

7. 「Towards Diverse and Natural Image Descriptions via a Conditional GAN」. Bo Dai, Sanja Fidler, Raquel Urtasun, Dahua Lin.

8. 「Temporal Action Detection with Structured Segment Networks」. Yue Zhao, Yuanjun Xiong, Limin Wang, Zhirong Wu, Xiaoou Tang, Dahua Lin.

9. 「Learning to Disambiguate by Asking Discriminative Questions」. Yining Li, Chen Huang, Xiaoou Tang, Chen Change Loy.

10. 「Be Your Own Prada: Fashion Synthesis with Structural Coherence」. Shizhan Zhu, Sanja Fidler, Raquel Urtasun, Dahua Lin, Chen Change Loy.

11. 「Recurrent Scale Approximation for Object Detection in CNN」. Yu LIU, Hongyang Li, Junjie Yan, Xiaogang Wang, Xiaoou Tang.

12. 「Orientation Invariant Feature Embedding and Spatial Temporal Re-ranking for Vehicle Re-identification」. Zhongdao Wang, Luming Tang, Xihui Liu, Zhuliang Yao, Shuai Yi, Jing Shao, Junjie Yan, Shengjin Wang, Hongsheng Li, Xiaogang Wang.

13. 「Multi-label Image Recognition by Recurrently Discovering Attentional Regions」. Zhouxia Wang, Tianshui Chen, Guanbin Li, Ruijia Xu, Liang Lin.

14. 「HydraPlus-Net: Attentive Deep Features for Pedestrian Analysis」. Xihui Liu, Haiyu Zhao, Maoqing Tian, Lu Sheng, Jing Shao, Shuai Yi, Junjie Yan, Xiaogang Wang.

15. 「Learning Deep Neural Networks for Vehicle Re-ID with Visual-spatio-temporal Path Proposals」. Yantao Shen, Tong Xiao, Hongsheng Li, Shuai Yi, Xiaogang Wang.

16. 「Deep Dual Learning for Semantic Image Segmentation」. Ping Luo, Guangrun Wang, Liang Lin, Xiaogang Wang.

17. 「Detecting Faces Using Inside Cascaded Contextual CNN」. Kaipeng Zhan, Zhanpeng Zhang, Hao Wang, Zhifeng Li, Yu Qiao, Wei Liu.

18. 「Single Shot Text Detector With Regional Attention」. Pan He; Weilin Huang, Tong He, Qile Zhu, Yu Qiao, Xiaolin Li.

19. 「RPAN: An End-To-End Recurrent Pose-Attention Network for Action Recognition in Videos」. Wenbin Du, Yali Wang, Yu Qiao.

20. 「Range Loss for Deep Face Recognition With Long-Tailed Training Data」. Xiao Zhang, Zhiyuan Fang, Yandong Wen, Zhifeng Li, Yu Qiao.






本文作者:奕欣
本文转自雷锋网禁止二次转载,原文链接
目录
相关文章
|
5月前
|
机器学习/深度学习 人工智能 算法
【AAAI 2024】再创佳绩!阿里云人工智能平台PAI多篇论文入选
阿里云人工智能平台PAI发表的多篇论文在AAAI-2024上正式亮相发表。AAAI是由国际人工智能促进协会主办的年会,是人工智能领域中历史最悠久、涵盖内容最广泛的国际顶级学术会议之一,也是中国计算机学会(CCF)推荐的A类国际学术会议。论文成果是阿里云与浙江大学、华南理工大学联合培养项目等共同研发,深耕以通用人工智能(AGI)为目标的一系列基础科学与工程问题,包括多模态理解模型、小样本类增量学习、深度表格学习和文档版面此次入选意味着阿里云人工智能平台PAI自研的深度学习算法达到了全球业界先进水平,获得了国际学者的认可,展现了阿里云人工智能技术创新在国际上的竞争力。
|
机器学习/深度学习 人工智能 自然语言处理
李飞飞高徒盘点年度十大AI亮点:核聚变、ChatGPT、AlphaFold上榜(1)
李飞飞高徒盘点年度十大AI亮点:核聚变、ChatGPT、AlphaFold上榜
112 0
|
Web App开发 人工智能 自然语言处理
李飞飞高徒盘点年度十大AI亮点:核聚变、ChatGPT、AlphaFold上榜(2)
李飞飞高徒盘点年度十大AI亮点:核聚变、ChatGPT、AlphaFold上榜
141 0
|
机器学习/深度学习 人工智能 自然语言处理
李飞飞高徒盘点年度十大AI亮点:核聚变、ChatGPT、AlphaFold上榜(3)
李飞飞高徒盘点年度十大AI亮点:核聚变、ChatGPT、AlphaFold上榜
123 0
|
机器学习/深度学习 人工智能 算法
全国首发!周志华教授领衔撰写《大数据分析研究进展》
全国首发!周志华教授领衔撰写《大数据分析研究进展》
195 0
|
机器学习/深度学习 人工智能 编解码
CVPR 2017国内外亮点论文汇集:史上最盛大会议,华人占据半壁江山
深度学习界的「春晚」CVPR 2017 已在夏威夷火奴鲁鲁 Hawaii Convention Center 开幕,在本次大会接收的众多论文当中,有华人参与的接近半数。这七百余篇论文中有哪些亮点?众多参会的中国研究机构又贡献了多少?我们为你整理了一篇观看指南。
303 0
CVPR 2017国内外亮点论文汇集:史上最盛大会议,华人占据半壁江山
|
机器学习/深度学习 人工智能 算法
跨界人工智能,暮光之城女主角发表学术论文
当电影《暮光之城》的女主角 Kristen Stewart 在机器学习论文上作为作者出现时,研究人员都是感到很震惊的。这位 90 后著名影星最近作为联合作者在 arXiv 上(由康奈尔大学运营的在线研究数据库)发表了一篇论文。
257 0
跨界人工智能,暮光之城女主角发表学术论文
|
机器学习/深度学习 人工智能 安全
蚂蚁安全实验室斩获NeurIPS & Facebook AI联合竞赛冠军
12月10日,由国际人工智能顶会NeurIPS 与 Facebook AI联合举办的图像相似匹配竞赛ISC2021落下帷幕,本次比赛共有1635支参赛队伍参加,是今年NeurIPS会议上最具影响力的比赛之一。来自蚂蚁集团的TitanShield Team(titanshield2)以超越第二名10个百分点的成绩斩获图像表征赛道冠军。据悉,此次夺冠团队采用的技术方案是由蚂蚁集团独立自研的、“基于特征兼容自监督学习框架”的预训练模型,能够针对性地解决内容安全风控领域常见的敏感信息更迭速度快、风控模型训练不及时等问题。作为可信AI技术研究及应用中的一环,该技术上线后可降低80%的图像对抗风险,将有助
195 0
|
机器学习/深度学习 编解码 算法
44篇论文强势进击CVPR 2018,商汤科技的研究员都在做哪些研究?
机器之心走进商汤,尝试从 44 篇接收论文中找出商汤近期的主攻方向,分析公司为 3-5 年乃至更长期的发展进行了哪些战略技术储备,也观照 CVPR 会议,乃至视觉领域的关注点迁移趋势。同时我们采访了三位来自商汤入选本届 CVPR oral / spotlight 环节的论文作者,与他们谈了自己的研究,如何进行开发,以及对 CVPR 乃至 CVPR 之外整个视觉领域研究现状的看法。
198 0
|
机器学习/深度学习 人工智能 计算机视觉
蚂蚁金服“定损宝”现身AI顶级会议NeurIPS
定损宝,一个针对车险定损的智能化解决方案。
3363 0
下一篇
无影云桌面