文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了

简介: 《CAD-MLLM: Unifying Multimodality-Conditioned CAD Generation With MLLM》提出了一种新型系统CAD-MLLM,能够根据文本、图像、点云或其组合生成高质量的CAD模型。该系统基于大型语言模型(LLM),通过多模态数据对齐和渐进式训练策略,实现了高效的CAD模型生成。作者创建了首个包含文本、图像、点云和命令序列的多模态数据集Omni-CAD,包含约450K个实例。实验表明,CAD-MLLM在多个任务上表现出色,特别是在点云条件生成任务中显著优于现有方法。未来工作将聚焦于提升计算效率、增加数据多样性及探索新模态。

近年来,人工智能在计算机辅助设计(CAD)领域的应用取得了显著的进展。近期,一篇名为《CAD-MLLM: Unifying Multimodality-Conditioned CAD Generation With MLLM》的论文引起了广泛关注。该论文提出了一种名为CAD-MLLM的新型系统,能够根据用户输入的文本描述、图像、点云或它们的组合,轻松生成高质量的CAD模型。

CAD-MLLM的创新之处在于其多模态条件生成能力。传统的CAD软件通常需要专业人员进行设计和修改,而CAD-MLLM则旨在为专家和非专家用户提供一个易于使用的工具,使他们能够通过简单的指令和插图将想法变为现实。

该论文的作者们提出了一种基于大型语言模型(LLM)的框架,该框架能够理解和操作CAD模型的高效表示。他们利用CAD模型的命令序列,并使用先进的LLM来对齐不同模态的数据(如文本、图像和点云)与CAD模型的向量化表示。

为了支持CAD-MLLM的训练,作者们设计了一个全面的数据构建和标注管道,为每个CAD模型配备了相应的多模态数据。他们创建了一个名为Omni-CAD的新型数据集,这是第一个包含文本描述、多视角图像、点云和命令序列的多模态CAD数据集。Omni-CAD数据集包含约450K个实例及其CAD构建序列。

CAD-MLLM的架构包括三个模块:视觉数据对齐、点数据对齐和大型语言模型。视觉数据对齐模块用于处理输入的多视角图像,点数据对齐模块用于处理输入的点云数据。大型语言模型则用于处理文本输入数据并生成CAD模型的命令序列。

在训练过程中,作者们采用了一种基于课程的渐进式训练策略,逐渐引入不同的模态。他们首先训练模型使用文本描述生成CAD模型,然后引入点云数据,最后引入多视角图像。这种策略确保了模型能够全面地学习到不同模态之间的关联。

为了评估CAD-MLLM的性能,作者们进行了广泛的实验,并提出了四种新的评估指标,用于评估生成的CAD模型的拓扑质量和空间封闭性。这些指标包括段错误(SegE)、悬挂边长度(DangEL)、自交比(SIR)和通量封闭误差(FluxEE)。

实验结果表明,CAD-MLLM在多个任务上都表现出了最先进的性能,包括点云条件生成、图像条件生成和文本条件生成。特别是在点云条件生成任务上,CAD-MLLM在拓扑质量和空间封闭性方面显著优于现有的生成方法。

CAD-MLLM的多模态输入能力使其在许多实际应用场景中具有广泛的潜力。例如,在产品设计中,设计师可以使用文本描述、图像或点云来快速生成CAD模型,从而加速设计过程。在建筑领域,建筑师可以使用多视角图像和文本描述来生成建筑物的CAD模型,以便进行可视化和分析。

尽管CAD-MLLM在多个方面都表现出了优越的性能,但它仍然存在一些局限性。例如,由于计算资源的限制,作者们在实验中只使用了两个视角的图像作为输入。此外,CAD-MLLM的训练和推理过程可能需要大量的计算资源和时间。

未来的工作可以集中在以下几个方面:

  1. 改进模型的计算效率:通过优化模型架构和训练策略,减少训练和推理所需的计算资源和时间。
  2. 增加数据集的多样性:通过收集更多不同领域和类型的CAD模型,提高模型的泛化能力和鲁棒性。
  3. 探索新的模态:除了文本、图像和点云之外,还可以探索其他模态的数据(如视频)作为输入,以进一步丰富模型的功能。

论文地址:https://arxiv.org/pdf/2411.04954

目录
相关文章
|
5天前
|
机器学习/深度学习 人工智能 PyTorch
模型手动绑骨3天,AI花3分钟搞定!UniRig:清华开源通用骨骼自动绑定框架,助力3D动画制作
UniRig是清华大学与VAST联合研发的自动骨骼绑定框架,基于自回归模型与交叉注意力机制,支持多样化3D模型的骨骼生成与蒙皮权重预测,其创新的骨骼树标记化技术显著提升动画制作效率。
142 27
模型手动绑骨3天,AI花3分钟搞定!UniRig:清华开源通用骨骼自动绑定框架,助力3D动画制作
|
4天前
|
机器学习/深度学习 人工智能 编解码
AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画
万相首尾帧模型是阿里通义开源的14B参数规模视频生成模型,基于DiT架构和高效视频压缩VAE,能够根据首尾帧图像自动生成5秒720p高清视频,支持多种风格变换和细节复刻。
110 7
AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画
|
4天前
|
人工智能 自然语言处理 物联网
用AI体验瞬息全宇宙!InstantCharacter:腾讯混元开源角色定制图像生成神器,一键打造你的专属角色
InstantCharacter是腾讯混元团队基于扩散Transformer架构开发的开源图像生成工具,通过可扩展适配器和大规模角色数据集实现高保真、角色一致性的图像生成,支持单图输入和文本控制。
78 3
用AI体验瞬息全宇宙!InstantCharacter:腾讯混元开源角色定制图像生成神器,一键打造你的专属角色
|
4天前
|
人工智能 自然语言处理 监控
基于DeepSeek R1改进的AI安全模型!MAI-DS-R1:微软开源AI安全卫士,敏感话题响应率高达99.3%
微软开源的MAI-DS-R1是基于DeepSeek R1改进的AI模型,通过后训练优化将敏感话题响应率提升至99.3%,同时将有害内容风险降低50%,保持原版推理能力并增强多语言支持。
85 3
基于DeepSeek R1改进的AI安全模型!MAI-DS-R1:微软开源AI安全卫士,敏感话题响应率高达99.3%
|
8天前
|
人工智能 编解码 物联网
设计师集体破防!UNO:字节跳动创新AI图像生成框架,多个参考主体同框生成,位置/材质/光影完美对齐
UNO是字节跳动开发的AI图像生成框架,通过渐进式跨模态对齐和通用旋转位置嵌入技术,解决了多主体场景下的生成一致性问题。该框架支持单主体特征保持与多主体组合生成,在虚拟试穿、产品设计等领域展现强大泛化能力。
88 4
设计师集体破防!UNO:字节跳动创新AI图像生成框架,多个参考主体同框生成,位置/材质/光影完美对齐
|
13天前
|
人工智能 自然语言处理 测试技术
亚马逊推出AI语音模型新标杆!Nova Sonic:多语言识别错误率仅4.2%,碾压GPT-4o-transcribe
亚马逊推出的Nova Sonic是一款整合语音理解与生成能力的AI模型,支持多语言交互,在LibriSpeech基准测试中平均单词错误率低至4.2%,具备实时双向流式传输能力。
71 5
亚马逊推出AI语音模型新标杆!Nova Sonic:多语言识别错误率仅4.2%,碾压GPT-4o-transcribe
|
13天前
|
机器学习/深度学习 人工智能 计算机视觉
AI图像质感还原堪比专业摄影!Miracle F1:美图WHEE全新AI图像生成模型,支持超写实与多风格生成
美图WHEE推出的Miracle F1采用扩散模型技术,通过精准语义理解和多风格生成能力,可产出具有真实光影质感的专业级图像作品。
88 4
AI图像质感还原堪比专业摄影!Miracle F1:美图WHEE全新AI图像生成模型,支持超写实与多风格生成
|
12天前
|
机器学习/深度学习 人工智能 编解码
让AI绘画进入「指哪画哪」的精准时代!EasyControl:Tiamat AI 联合上海科大开源图像生成控制框架
EasyControl 是基于扩散变换器架构的高效灵活控制框架,通过轻量级条件注入模块实现多模态预训练支持,具备任意分辨率生成能力和显著优化的推理效率。
118 1
让AI绘画进入「指哪画哪」的精准时代!EasyControl:Tiamat AI 联合上海科大开源图像生成控制框架
|
6天前
|
数据采集 机器学习/深度学习 人工智能
面向 MoE 和推理模型时代:阿里云大数据 AI 产品升级发布
2025 AI 势能大会上,阿里云大数据 AI 平台持续创新,贴合 MoE 架构、Reasoning Model 、 Agentic RAG、MCP 等新趋势,带来计算范式变革。多款大数据及 AI 产品重磅升级,助力企业客户高效地构建 AI 模型并落地 AI 应用。
|
13天前
|
缓存 PyTorch 算法框架/工具
AI Infra之模型显存管理分析
本文围绕某线上客户部署DeepSeek-R1满血版模型时进行多次压测后,发现显存占用一直上升,从未下降的现象,记录了排查过程。
176 36
AI Infra之模型显存管理分析