分割一切模型SAM首篇全面综述:28页、200+篇参考文献(2)

简介: 分割一切模型SAM首篇全面综述:28页、200+篇参考文献

视觉之外


首先是 3D 重建。除了实现细粒度的 3D 分割,SA3D [183] 可以用于 3D 重建。利用 3D 掩码网格,研究者可以确定物体在 3D 中的占用空间,并以各种方式重建。下图 14 为 SA3D 的整体 pipeline。



参考文献 [186] 提出了一种新的对象移除 pipeline ORNeRF,它使用单个视图上的点或文本 prompt 从 3D 场景中移除对象。通过使用点投影策略将用户注释快速传播给所有视图,该方法使用比以往工作更少的时间实现了更好的性能。下图 15 为 ORNeRF 的框架。



其次是非欧式域。为了为不同任务处理不同特征维度,下图 16 中所示的 SNA 方法引入了一个专门的可精简图卷积层。该层可以根据输入的特征维度进行通道的动态激活或停用。



然后是机器人。下图 17 展示了 Instruct2Act [190] 的整体流程。在感知部分,预定义的 API 用于访问多个基础模型。SAM [20] 准确定位候选对象,CLIP [13] 对它们进行分类。该框架利用基础模型的专业知识和机器人能力将复杂的高级指令转换为精确的策略代码。


接着是视频文本定位。下图 18 展示了一种为视频文本定位任务生成掩码注释的可扩展高效解决方案 SAMText [180]。通过将 SAM 模型应用于边界框注释,它可以为大规模视频文本数据集生成掩码注释。



此外还有图像字幕。Wang et al. [44] 提出了一种用于可控图像字幕的方法 Caption Anything(CAT),如下图 20 所示,CAT 的框架将多模态控制引入图像字幕,呈现符合人类意图的各种视觉焦点和语言风格。



视听也有涉及。参考文献 [45] 的视听定位和分割方法用于学习可以对齐音频和视觉信息的跨模态表示,具体如下图 21 所示。AV-SAM 利用预训练音频编码器和图像编码器中跨音频和视觉特征的像素级视听融合来聚合跨模态表示。然后将聚合的跨模态特征输入 prompt 编码器和掩码解码器,生成最终的视听分割掩码。


最后是多模态视觉和开放词汇交互分割。参考文献 [44] 的方法如下图 22 所示,旨在使用仅文本输入的 CLIP 策略来完全取代手动点(manual point)。这种方法提供来自文本输入的像素级结果,可以很容易地转换为 SAM 模型的点 prompt。



结语


本文首次全面回顾了计算机视觉及其他领域 SAM 基础模型的研究进展。首先总结了基础模型(大语言模型、大型视觉模型和多模态大模型)的发展历史以及 SAM 的基本术语,并着重于 SAM 在各种任务和数据类型中的应用,总结和比较了 SAM 的并行工作及其后续工作。研究者还讨论 SAM 在广泛的图像处理应用中的巨大潜力,包括软件场景、真实世界场景和复杂场景。


此外,研究者分析和总结了 SAM 在各种应用程序中的优点和局限性。这些观察结果可以为未来开发更强大的基础模型和进一步提升 SAM 的稳健性和泛化性提供一些洞见。文章最后总结了 SAM 在视觉和其他领域的大量其他令人惊叹的应用。

相关文章
|
机器学习/深度学习 人工智能 算法
顶会论文 | 阿里云视频摘要 SOTA 模型:用于视频摘要的多层时空网络
这次向大家分享的工作是作者所负责团队在国际人工智能多媒体顶会 ACM MM 2022 (CCF-A)发表的文章 “Multi-Level Spatiotemporal Network for Video Summarization”,该文提出了一种用于视频摘要的多层时空网络,在视频摘要领域实现了全球领先的研究探索。基于作者团队在工业级推荐系统方面的研究积累,成功地在阿里云产业大规模视频摘要场景实践中解决了一个视频摘要领域的重要问题,推动了该领域的发展。
2485 1
顶会论文 | 阿里云视频摘要 SOTA 模型:用于视频摘要的多层时空网络
|
9月前
|
机器学习/深度学习 编解码 人工智能
SAM-Med | 英伟达基于SAM提出医学图像标注效率神器
SAM-Med | 英伟达基于SAM提出医学图像标注效率神器
402 0
|
机器学习/深度学习 人工智能 自然语言处理
NTU、上海AI Lab整理300+论文:基于Transformer的视觉分割最新综述出炉
NTU、上海AI Lab整理300+论文:基于Transformer的视觉分割最新综述出炉
170 0
|
机器学习/深度学习 人工智能 编解码
分割一切模型SAM首篇全面综述:28页、200+篇参考文献(1)
分割一切模型SAM首篇全面综述:28页、200+篇参考文献
2084 0
|
数据可视化 计算机视觉
CVPR2021 | 重新思考BiSeNet让语义分割模型速度起飞(文末获取论文)(二)
CVPR2021 | 重新思考BiSeNet让语义分割模型速度起飞(文末获取论文)(二)
148 0
|
编解码 计算机视觉 网络架构
CVPR2021 | 重新思考BiSeNet让语义分割模型速度起飞(文末获取论文)(一)
CVPR2021 | 重新思考BiSeNet让语义分割模型速度起飞(文末获取论文)(一)
372 0
|
机器学习/深度学习 编解码 运维
覆盖100余篇论文,这篇综述系统回顾了CV中的扩散模型
覆盖100余篇论文,这篇综述系统回顾了CV中的扩散模型
211 0
|
机器学习/深度学习 移动开发 人工智能
自编码器26页综述论文:概念、图解和应用
自编码器26页综述论文:概念、图解和应用
148 0
|
编解码 PyTorch 算法框架/工具
以 CVPR2023 的半监督语义分割工作 UniMatch 为例,聊聊一篇顶会论文的idea是如何逐步挖掘出来的!
以 CVPR2023 的半监督语义分割工作 UniMatch 为例,聊聊一篇顶会论文的idea是如何逐步挖掘出来的!
575 0
|
机器学习/深度学习 算法 自动驾驶
CVPR2021快报!目标检测和语义分割论文分类汇总 | 源码 |
在语义分割中,对广泛使用的域自适应基准数据集进行了广泛的实验和消融研究。通过对标记的Synscapes和GTA5数据集以及未标记的Cityscapes训练集进行训练,我们提出的方法在Cityscapes的验证集上达到了59.0%的mIoU。它明显优于所有以前的最新的单源和多源无监督域自适应方法。
CVPR2021快报!目标检测和语义分割论文分类汇总 | 源码 |