系列解读:深度时空视觉表征学习方法及应用

简介: 系列解读:深度时空视觉表征学习方法及应用


视觉表征学习是人工智能领域的一个重要分支,它也是大部分计算机视觉与多媒体任务的基石。近几年受自然语言处理领域 Transformer 结构的启发,视觉表征学习的网络架构也从传统卷积神经网络(CNN)演变到 Vision Transformer 的设计范式。此外,得益于无监督、自监督机器学习的技术发展,视觉表征学习的训练模式逐渐摆脱了对大量人工标注数据的严重依赖,涌现出一系列高性能的自监督视觉表征学习技术。因此本次分享将由京东科技视觉技术创新团队的四位研究员分别介绍深度时空视觉表征学习(图像、视频及 3D 视觉)在网络架构和自监督训练模式这两个维度上的一系列技术创新,例如针对图像和视频表征学习的高性能 Transformer 结构(CoTNet、Wave-ViT、Dual-ViT、SIFA、DTF)。



12 月 20 日 19:00-21:00
主题一:图像表征学习方法及应用分享嘉宾:潘滢炜,京东科技视觉技术创新团队资深研究员,谷歌学术引用率 5000 余次,曾获微软学者奖学金、ACM SIGMM China 最佳博士论文奖和新星奖、ACM Multimedia 最佳演示系统奖和最佳开源项目奖。

主题二:自监督表征学习方法及应用分享嘉宾:亚龙,京东科技视觉技术创新团队资深研究员。在人工智能、计算机视觉领域国际会议如 CVPR, ICCV, ICLR, AAAI 等发表论文 20 余篇,并获得 ACM MM 图像检索、CVPR 细粒度图像识别等多项竞赛冠军。
主题三:视频表征学习方法及应用分享嘉宾:邱钊凡,京东科技视觉技术创新团队研究员,主要研究兴趣是视频内容理解、多媒体数据分析和多媒体内容检索等方向,在相关领域国际会议上发表论文 20 余篇,谷歌学术引用率三千余次,曾获微软学者奖学金、ACM SIGMM China 最佳博士论文奖。
主题四:3D视觉表征学习方法及应用分享嘉宾:蔡琪,京东科技视觉技术创新团队研究员,在 CVPR、NeurIPS、TIP 等会议期刊发表多篇无监督学习、目标检测相关论文,曾获得 VisDA 跨域目标检测、SAPIEN ManiSkill 2021 机械臂比赛等多项竞赛冠军,相关研究工作在物流场景中落地应用。

相关文章
|
6月前
|
存储 人工智能 自然语言处理
|
6月前
|
存储 机器学习/深度学习 人工智能
AIGC训练场景下的存储特征研究
在今天这样以AIGC为代表的AI时代下,了解训练场景对于存储的具体诉求同样是至关重要的。本文将尝试解读WEKA的一个相关报告,来看看AIGC对于存储有哪些具体的性能要求。
95033 8
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
基于Mamba架构的,状态空间音频分类模型AUM
【8月更文挑战第7天】随着AI技术的发展,音频分类在诸多领域变得至关重要。传统方法如CNN面临计算成本高的问题。新兴的Mamba架构,基于状态空间模型(SSM),展示出优秀性能。受此启发,研究者开发了Audio Mamba (AUM)模型,首个完全基于SSM且不依赖自注意力机制的音频分类模型。AUM利用SSM的高效性捕捉音频时频特征,大幅降低计算复杂度,尤其适合大规模数据。实验显示,AUM在多个任务上的表现与先进自注意力模型相当甚至更好。尽管如此,AUM在复杂任务及泛化能力方面仍存在讨论空间。[论文](https://arxiv.org/abs/2406.03344)
73 1
|
机器学习/深度学习 传感器 编解码
史上最全 | BEV感知算法综述(基于图像/Lidar/多模态数据的3D检测与分割任务)
以视觉为中心的俯视图(BEV)感知最近受到了广泛的关注,因其可以自然地呈现自然场景且对融合更友好。随着深度学习的快速发展,许多新颖的方法尝试解决以视觉为中心的BEV感知,但是目前还缺乏对该领域的综述类文章。本文对以视觉为中心的BEV感知及其扩展的方法进行了全面的综述调研,并提供了深入的分析和结果比较,进一步思考未来可能的研究方向。如下图所示,目前的工作可以根据视角变换分为两大类,即基于几何变换和基于网络变换。前者利用相机的物理原理,以可解释性的方式转换视图。后者则使用神经网络将透视图(PV)投影到BEV上。
史上最全 | BEV感知算法综述(基于图像/Lidar/多模态数据的3D检测与分割任务)
|
机器学习/深度学习 传感器 自动驾驶
视觉BEV基本原理和方案解析
视觉BEV在高德高精地图地面要素识别、车道线拓扑构建、车端融合定位等业务场景中都扮演了重要角色。
|
6月前
|
机器学习/深度学习 数据采集 数据可视化
【机器学习】样本、特征、标签:构建智能模型的三大基石
【机器学习】样本、特征、标签:构建智能模型的三大基石
2661 0
|
6月前
|
机器学习/深度学习 存储 算法
基于多模态融合与图神经网络的用户精准感知系统研究
基于多模态融合与图神经网络的用户精准感知系统研究
200 0
|
机器学习/深度学习 数据采集 人工智能
ONE-PEACE:探索通往无限模态的通用表征模型
过去几年里,表征模型在自然语言处理、计算机视觉、语音处理等领域取得了巨大的成功。经过大量数据学习的表征模型,不仅可以在各种下游任务上取得良好的效果,还可以作为大规模语言模型(LLM)的基座模型,为LLM提供多模态理解能力。随着多模态技术的发展,尤其CLIP[1]之后大家都意识到一个好的多模态表征模型在很多单模态任务上都会发挥着至关重要的基础模型的作用。学习了大量模态alignment的数据之后的模型逐渐在学会去理解各个模态和模态间蕴含的知识,甚至通过对大量模态的学习促进对其它模态的理解。
21918 7
|
机器学习/深度学习 数据可视化 自动驾驶
NeurIPS 2022 | 准确建模多智能体系统,斯坦福提出隐空间多层图模型
NeurIPS 2022 | 准确建模多智能体系统,斯坦福提出隐空间多层图模型
194 0
NeurIPS 2022 | 准确建模多智能体系统,斯坦福提出隐空间多层图模型
|
机器学习/深度学习 编解码 人工智能
2022最新综述!一文详解多目标跟踪方法最新进展(单帧/多帧/特征/相关性)
多目标跟踪(MOT)旨在跨视频帧关联目标对象,以获得整个运动轨迹。随着深度神经网络的发展和对智能视频分析需求的增加,MOT在计算机视觉领域的兴趣显著增加。嵌入方法在MOT中的目标位置估计和时间身份关联中起着至关重要的作用,与其他计算机视觉任务(如图像分类、目标检测、重识别和分割)不同,MOT中的嵌入方法有很大的差异,并且从未被系统地分析和总结。本综述首先从七个不同的角度对MOT中的嵌入方法进行了全面概述和深入分析,包括补丁级嵌入、单帧嵌入、跨帧联合嵌入、相关嵌入、顺序嵌入、小轨迹嵌入和跨轨迹关系嵌入。论文进一步总结了现有广泛使用的MOT数据集,并根据其嵌入情况分析了现有最先进方法的优势策略。
2022最新综述!一文详解多目标跟踪方法最新进展(单帧/多帧/特征/相关性)
下一篇
无影云桌面