Find3D:加州理工学院推出的3D部件分割模型

本文涉及的产品
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,图像资源包5000点
简介: Find3D是由加州理工学院推出的3D部件分割模型,能够根据任意文本查询分割任意对象的任何部分。该模型利用强大的数据引擎自动从互联网上的3D资产生成训练数据,并通过对比训练方法训练出一个可扩展的3D模型。Find3D在多个数据集上表现出色,显著提升了平均交并比(mIoU),并能处理来自iPhone照片和AI生成图像的野外3D构建。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:识别和分割任何物体的任何部分,只需用文本查询即可。
  2. 性能:在多个数据集上表现出色,平均交并比(mIoU)提高3倍。
  3. 应用:适用于机器人视觉、虚拟现实、计算机辅助设计等多个领域。

正文(附运行示例)

Find3D 是什么

公众号: 蚝油菜花 - Find3D

Find3D是由加州理工学院推出的3D部件分割模型,旨在根据任意文本查询分割任意对象的任何部分。该模型通过一个强大的数据引擎自动从互联网上的3D资产生成训练数据,并采用对比训练方法训练出一个可扩展的3D模型。

Find3D在包括Objaverse-General、ShapeNet-Part和PartNet-E在内的多个数据集上展现了出色的性能,实现了高达3倍于次佳方法的平均交并比(mIoU)提升。此外,Find3D还能处理来自iPhone照片和AI生成图像的野外3D构建。

Find3D 的主要功能

  • 开放世界3D部分分割:识别和分割任何物体的任何部分,只需用文本查询即可,不受预定义部分集的限制。
  • 无需人工注释:利用数据引擎自动从互联网上的3D资产生成训练数据,无需人工注释。
  • 高性能与泛化能力:在多个数据集上表现出色,与次佳方法相比,平均交并比(mIoU)提高3倍。
  • 快速推理:比现有基线快6到300倍,显著提高推理速度。
  • 鲁棒性:在不同的物体姿态和查询条件下保持稳定的分割效果。
  • 查询灵活性:支持不同类型的文本查询,包括不同粒度和描述风格的部分查询。

Find3D 的技术原理

  • 数据引擎

    • 使用2D基础模型(如SAM和Gemini)自动注释3D对象。
    • 将3D资产渲染成多个视图,每个视图传递给SAM进行分割。
    • 对于SAM返回的每个掩码,查询Gemini以获取相应的部分名称,形成(掩码,文本)对。
    • 将部分名称嵌入到视觉和语言基础模型(如SigLIP)的潜在嵌入空间中。
    • 基于投影几何将掩码反投影到3D点云中,形成(点,文本嵌入)对。
  • 模型训练

    • 基于Transformer的点云模型,该模型将点云视为序列,并执行块注意力。
    • 模型返回的点特征与文本嵌入的余弦相似度进行任何自由形式文本的查询。
    • 用对比学习目标处理标签的多义性和部分可见性问题,支持在数据引擎生成的数据上进行可扩展训练。
  • 对比学习目标

    • 解决每个点具有多个标签的问题,及由于每个掩码只覆盖部分视图而导致的未标记点问题。
    • 基于对比学习目标,让模型能学习到鲁棒的特征表示,在开放世界中实现准确的部分分割。

如何运行 Find3D

环境设置

cd model
conda create -n find3d python=3.8
pip install -r requirements.txt

构建 Pointcept

git clone https://github.com/Pointcept/Pointcept.git
cd /Pointcept/libs/pointops
python setup.py install
cd ../../..

构建 FlashAttention

git clone https://github.com/Dao-AILab/flash-attention.git
cd flash-attention MAX_JOBS=4 python setup.py install
cd ..

运行推理

在基准数据集上运行推理

python evaluation/benchmark/eval_benchmark.py --benchmark Objaverse --data_root [data root] --objaverse_split unseen --checkpoint_path [your downloaded checkpoint path]

在野外点云数据上运行推理

python evaluation/demo/eval_visualize.py --object_path evaluation/demo/mickey.py --checkpoint_path [your downloaded checkpoint path] --mode segmentation --queries "head" "ear" "arm" "leg" "body" "hand" "shoe"

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
8月前
|
机器学习/深度学习 自然语言处理 测试技术
直接扩展到无限长,谷歌Infini-Transformer终结上下文长度之争
【4月更文挑战第23天】谷歌研究团队推出Infini-Transformer,一种能处理无限长度输入的大型语言模型,解决了长序列数据处理中的内存和计算瓶颈。新模型采用Infini-attention机制,结合压缩记忆,实现高效计算和内存使用。实验显示,该模型在长上下文任务中表现出色,适用于处理极长输入序列,具有低内存占用和快速流式推理能力。论文链接:https://arxiv.org/pdf/2404.07143.pdf
95 1
|
1天前
|
人工智能 物联网 Python
VMix:即插即用!字节联合中科大推出增强模型生成美学质量的开源适配器,支持多源输入、高质量视频处理
VMix 是一款创新的即插即用美学适配器,通过解耦文本提示和交叉注意力混合控制,显著提升图像生成的美学质量,支持多源输入和高质量视频处理。
22 10
VMix:即插即用!字节联合中科大推出增强模型生成美学质量的开源适配器,支持多源输入、高质量视频处理
|
2月前
|
人工智能
LongAlign:港大推出的提升文本到图像扩散模型处理长文本对齐方法
LongAlign是由香港大学研究团队推出的文本到图像扩散模型的改进方法,旨在提升长文本输入的对齐精度。通过段级编码技术和分解偏好优化,LongAlign显著提高了模型在长文本对齐任务上的性能,超越了现有的先进模型。
43 1
LongAlign:港大推出的提升文本到图像扩散模型处理长文本对齐方法
|
2月前
|
编解码 人工智能 开发者
长短大小样样精通!原始分辨率、超长视频输入:更灵活的全开源多模态架构Oryx
【10月更文挑战第23天】Oryx 是一种新型多模态架构,能够灵活处理各种分辨率的图像和视频数据。其核心创新在于能够对图像和视频进行任意分辨率编码,并通过动态压缩器模块提高处理效率。Oryx 在处理长视觉上下文(如视频)时表现出色,同时在图像、视频和3D多模态理解方面也展现了强大能力。该模型的开源性质为多模态研究社区提供了宝贵资源,但同时也面临一些挑战,如选择合适的分辨率和压缩率以及计算资源的需求。
40 3
|
5月前
|
XML 传感器 测试技术
GIGE 协议摘录 —— 照相机的标准特征列表(五)
GIGE 协议摘录 —— 照相机的标准特征列表(五)
55 2
|
机器学习/深度学习 编解码 算法
|
机器学习/深度学习 人工智能 达摩院
港大阿里“视觉AI任意门”,一键向场景中无缝传送物体
本文主要展示了阿里和港大的AI版「任意门」,实现零样本的图像嵌入。
|
机器学习/深度学习 人工智能 自然语言处理
CasEE: 一种用于重叠事件抽取的级联解码联合学习框架 论文解读
事件抽取(Event extraction, EE)是一项重要的信息抽取任务,旨在抽取文本中的事件信息。现有方法大多假设事件出现在句子中没有重叠,这不适用于复杂的重叠事件抽取。
293 0
|
机器学习/深度学习 人工智能 自然语言处理
USB:首个将视觉、语言和音频分类任务进行统一的半监督分类学习基准
USB:首个将视觉、语言和音频分类任务进行统一的半监督分类学习基准
140 0
USB:首个将视觉、语言和音频分类任务进行统一的半监督分类学习基准
|
机器学习/深度学习 人工智能 自然语言处理
CLIP:语言-图像表示之间的桥梁
最近GPT4的火爆覆盖了一个新闻:midjourney v5发布,DALLE2,midjourney都可以从文本中生成图像,这种模型要求人工智能同时理解语言和图像数据。
233 0

热门文章

最新文章