Find3D:加州理工学院推出的3D部件分割模型

本文涉及的产品
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,视频资源包5000点
简介: Find3D是由加州理工学院推出的3D部件分割模型,能够根据任意文本查询分割任意对象的任何部分。该模型利用强大的数据引擎自动从互联网上的3D资产生成训练数据,并通过对比训练方法训练出一个可扩展的3D模型。Find3D在多个数据集上表现出色,显著提升了平均交并比(mIoU),并能处理来自iPhone照片和AI生成图像的野外3D构建。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:识别和分割任何物体的任何部分,只需用文本查询即可。
  2. 性能:在多个数据集上表现出色,平均交并比(mIoU)提高3倍。
  3. 应用:适用于机器人视觉、虚拟现实、计算机辅助设计等多个领域。

正文(附运行示例)

Find3D 是什么

公众号: 蚝油菜花 - Find3D

Find3D是由加州理工学院推出的3D部件分割模型,旨在根据任意文本查询分割任意对象的任何部分。该模型通过一个强大的数据引擎自动从互联网上的3D资产生成训练数据,并采用对比训练方法训练出一个可扩展的3D模型。

Find3D在包括Objaverse-General、ShapeNet-Part和PartNet-E在内的多个数据集上展现了出色的性能,实现了高达3倍于次佳方法的平均交并比(mIoU)提升。此外,Find3D还能处理来自iPhone照片和AI生成图像的野外3D构建。

Find3D 的主要功能

  • 开放世界3D部分分割:识别和分割任何物体的任何部分,只需用文本查询即可,不受预定义部分集的限制。
  • 无需人工注释:利用数据引擎自动从互联网上的3D资产生成训练数据,无需人工注释。
  • 高性能与泛化能力:在多个数据集上表现出色,与次佳方法相比,平均交并比(mIoU)提高3倍。
  • 快速推理:比现有基线快6到300倍,显著提高推理速度。
  • 鲁棒性:在不同的物体姿态和查询条件下保持稳定的分割效果。
  • 查询灵活性:支持不同类型的文本查询,包括不同粒度和描述风格的部分查询。

Find3D 的技术原理

  • 数据引擎

    • 使用2D基础模型(如SAM和Gemini)自动注释3D对象。
    • 将3D资产渲染成多个视图,每个视图传递给SAM进行分割。
    • 对于SAM返回的每个掩码,查询Gemini以获取相应的部分名称,形成(掩码,文本)对。
    • 将部分名称嵌入到视觉和语言基础模型(如SigLIP)的潜在嵌入空间中。
    • 基于投影几何将掩码反投影到3D点云中,形成(点,文本嵌入)对。
  • 模型训练

    • 基于Transformer的点云模型,该模型将点云视为序列,并执行块注意力。
    • 模型返回的点特征与文本嵌入的余弦相似度进行任何自由形式文本的查询。
    • 用对比学习目标处理标签的多义性和部分可见性问题,支持在数据引擎生成的数据上进行可扩展训练。
  • 对比学习目标

    • 解决每个点具有多个标签的问题,及由于每个掩码只覆盖部分视图而导致的未标记点问题。
    • 基于对比学习目标,让模型能学习到鲁棒的特征表示,在开放世界中实现准确的部分分割。

如何运行 Find3D

环境设置

cd model
conda create -n find3d python=3.8
pip install -r requirements.txt

构建 Pointcept

git clone https://github.com/Pointcept/Pointcept.git
cd /Pointcept/libs/pointops
python setup.py install
cd ../../..

构建 FlashAttention

git clone https://github.com/Dao-AILab/flash-attention.git
cd flash-attention MAX_JOBS=4 python setup.py install
cd ..

运行推理

在基准数据集上运行推理

python evaluation/benchmark/eval_benchmark.py --benchmark Objaverse --data_root [data root] --objaverse_split unseen --checkpoint_path [your downloaded checkpoint path]

在野外点云数据上运行推理

python evaluation/demo/eval_visualize.py --object_path evaluation/demo/mickey.py --checkpoint_path [your downloaded checkpoint path] --mode segmentation --queries "head" "ear" "arm" "leg" "body" "hand" "shoe"

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
8月前
|
机器学习/深度学习 自然语言处理 测试技术
直接扩展到无限长,谷歌Infini-Transformer终结上下文长度之争
【4月更文挑战第23天】谷歌研究团队推出Infini-Transformer,一种能处理无限长度输入的大型语言模型,解决了长序列数据处理中的内存和计算瓶颈。新模型采用Infini-attention机制,结合压缩记忆,实现高效计算和内存使用。实验显示,该模型在长上下文任务中表现出色,适用于处理极长输入序列,具有低内存占用和快速流式推理能力。论文链接:https://arxiv.org/pdf/2404.07143.pdf
101 1
|
5月前
|
XML 传感器 测试技术
GIGE 协议摘录 —— 照相机的标准特征列表(五)
GIGE 协议摘录 —— 照相机的标准特征列表(五)
58 2
|
8月前
|
人工智能 UED
“视觉AI任意门”AnyDoor,只需点两下鼠标就可以实现任意场景物体交换
【2月更文挑战第17天】“视觉AI任意门”AnyDoor,只需点两下鼠标就可以实现任意场景物体交换
382 1
“视觉AI任意门”AnyDoor,只需点两下鼠标就可以实现任意场景物体交换
|
8月前
|
语音技术
长音频集成模型的标点结果既依赖于语音识别也依赖于语音端点检测(VAD)
长音频集成模型的标点结果既依赖于语音识别也依赖于语音端点检测(VAD)【1月更文挑战第11天】【1月更文挑战第52篇】
144 1
|
8月前
|
传感器 编解码 计算机视觉
事件相机 PROPHESEE EVK4紧凑基于事件的 高清视觉评估套件 视觉传感 EVK4
探索基于事件的视觉,从 PROPHESEE EVK4 HD 开始。这款超轻、紧凑的高清 Metavision ®评估套件,可承受现场测试条件。集成 IMX636(高清),堆叠式事件视觉传感器由索尼半导体解决方案公司发布,由索尼和 PROPHESEE 合作实现。
事件相机 PROPHESEE EVK4紧凑基于事件的 高清视觉评估套件 视觉传感 EVK4
|
机器学习/深度学习 编解码 算法
|
前端开发 芯片
【芯片前端】保持代码手感——不重叠序列检测
【芯片前端】保持代码手感——不重叠序列检测
|
机器学习/深度学习 人工智能 自然语言处理
USB:首个将视觉、语言和音频分类任务进行统一的半监督分类学习基准
USB:首个将视觉、语言和音频分类任务进行统一的半监督分类学习基准
140 0
USB:首个将视觉、语言和音频分类任务进行统一的半监督分类学习基准
|
编解码 算法 计算机视觉
学不动系列 | YolactEdge:边缘设备上的实时实例分割(Xavier: 30 FPS,附源码与论文)(一)
学不动系列 | YolactEdge:边缘设备上的实时实例分割(Xavier: 30 FPS,附源码与论文)(一)
237 0
|
机器学习/深度学习 编解码 计算机视觉
真的这么丝滑吗?Hinton组提出基于大型全景掩码的实例分割框架,图像视频场景丝滑切换
真的这么丝滑吗?Hinton组提出基于大型全景掩码的实例分割框架,图像视频场景丝滑切换

热门文章

最新文章