视觉表征学习是人工智能领域的一个重要分支,它也是大部分计算机视觉与多媒体任务的基石。近几年受自然语言处理领域 Transformer 结构的启发,视觉表征学习的网络架构也从传统卷积神经网络(CNN)演变到 Vision Transformer 的设计范式。此外,得益于无监督、自监督机器学习的技术发展,视觉表征学习的训练模式逐渐摆脱了对大量人工标注数据的严重依赖,涌现出一系列高性能的自监督视觉表征学习技术。因此本次分享将由京东科技视觉技术创新团队的四位研究员分别介绍深度时空视觉表征学习(图像、视频及 3D 视觉)在网络架构和自监督训练模式这两个维度上的一系列技术创新,例如针对图像和视频表征学习的高性能 Transformer 结构(CoTNet、Wave-ViT、Dual-ViT、SIFA、DTF)。
12 月 20 日 19:00-21:00
主题一:图像表征学习方法及应用分享嘉宾:潘滢炜,京东科技视觉技术创新团队资深研究员,谷歌学术引用率 5000 余次,曾获微软学者奖学金、ACM SIGMM China 最佳博士论文奖和新星奖、ACM Multimedia 最佳演示系统奖和最佳开源项目奖。
主题二:自监督表征学习方法及应用分享嘉宾:白亚龙,京东科技视觉技术创新团队资深研究员。在人工智能、计算机视觉领域国际会议如 CVPR, ICCV, ICLR, AAAI 等发表论文 20 余篇,并获得 ACM MM 图像检索、CVPR 细粒度图像识别等多项竞赛冠军。
主题三:视频表征学习方法及应用分享嘉宾:邱钊凡,京东科技视觉技术创新团队研究员,主要研究兴趣是视频内容理解、多媒体数据分析和多媒体内容检索等方向,在相关领域国际会议上发表论文 20 余篇,谷歌学术引用率三千余次,曾获微软学者奖学金、ACM SIGMM China 最佳博士论文奖。
主题四:3D视觉表征学习方法及应用分享嘉宾:蔡琪,京东科技视觉技术创新团队研究员,在 CVPR、NeurIPS、TIP 等会议期刊发表多篇无监督学习、目标检测相关论文,曾获得 VisDA 跨域目标检测、SAPIEN ManiSkill 2021 机械臂比赛等多项竞赛冠军,相关研究工作在物流场景中落地应用。