ENEL:3D建模革命!上海AI Lab黑科技砍掉编码器,7B模型性能吊打13B巨头

本文涉及的产品
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,图像资源包5000点
简介: ENEL是由上海AI Lab推出的无编码器3D大型多模态模型,能够在多个3D任务中实现高效语义编码和几何结构理解,如3D对象分类、字幕生成和视觉问答。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 "编码器是多余的吗?上海AI Lab用ENEL给出答案:3D多模态进入『直给时代』"

大家好,我是蚝油菜花。当全球AI团队在堆叠编码器层数时,上海AI Lab做了一件疯狂的事——他们删掉了整个3D编码器模块。

ENEL的三大颠覆性价值:

  • ✅ 点云直通LLM:原始数据直接转换为离散标记,规避分辨率限制
  • ✅ 几何语义双杀:混合损失函数+分层聚合,7B模型性能比肩13B
  • ✅ 工业级落地:支持激光雷达/医疗影像等实时处理场景

这项突破正在引发学界激辩:传统的编码器-解码器架构,是否已成为3D多模态发展的枷锁?接下来我们将深度拆解其实现原理,手把手演示如何用消费级显卡运行这个颠覆性模型。

🚀 快速阅读

ENEL是创新的无编码器3D大型多模态模型,通过去除3D编码器直接将点云数据转换为离散点标记,与文本标记拼接后输入到大型语言模型(LLM)中。

  1. 核心功能:ENEL在3D对象分类、字幕生成和视觉问答等任务中表现出色,性能与13B的ShapeLLM相当。
  2. 技术原理:通过混合语义损失和分层几何聚合策略,ENEL实现了高效的语义编码和几何结构理解。

ENEL 是什么

ENEL

ENEL(Exploring the Potential of Encoder-free Architectures in 3D LMMs)是创新的无编码器3D大型多模态模型(3D LMM),旨在解决传统编码器架构在3D理解任务中的局限性。ENEL通过去除3D编码器,直接将点云数据转换为离散的点标记,并与文本标记拼接后输入到大型语言模型(LLM)中。

这种设计避免了编码器架构中常见的点云分辨率限制和语义嵌入不匹配问题,使模型能够更高效地处理复杂的3D任务。ENEL通过两种关键策略实现高效语义编码和几何结构理解:一是LLM嵌入的语义编码策略,通过混合语义损失提取高级语义;二是分层几何聚合策略,使LLM能关注点云的局部细节。

ENEL 的主要功能

  • 无编码器架构:ENEL去除了传统的3D编码器,直接将点云数据通过标记嵌入模块转换为离散点标记,与文本标记拼接后输入到LLM中,避免了编码器架构中常见的点云分辨率限制和语义嵌入不匹配问题。
  • 高级语义提取:ENEL通过LLM嵌入的语义编码策略,在预训练阶段引入混合语义损失(Hybrid Semantic Loss),能提取点云的高级语义特征,同时保留关键的几何结构。
  • 局部几何感知:在指令调优阶段,ENEL采用分层几何聚合策略,使LLM能主动感知点云的局部细节,通过聚合和传播操作,将局部几何信息融入LLM的早期层,实现对复杂3D结构的精细理解。
  • 多任务3D理解:ENEL在多个3D任务上表现出色,包括3D对象分类、3D对象字幕生成和3D视觉问答(VQA)。7B模型在Objaverse基准测试中达到了55.0%的分类准确率和50.92%的字幕生成GPT分数,性能与13B的ShapeLLM相当。
  • 高效语义对齐:ENEL通过无编码器架构实现了点云与文本模态之间的高效语义对齐,能更好地捕捉两者之间的语义相关性,为3D多模态任务提供了更强大的语义基础。

ENEL 的技术原理

  • LLM嵌入的语义编码(LLM-embedded Semantic Encoding):在预训练阶段,ENEL通过探索不同的点云自监督损失(如掩码建模损失、重建损失、对比损失和知识蒸馏损失),提出了一种混合语义损失(Hybrid Semantic Loss)。这种损失函数能将点云的高级语义信息嵌入到LLM中,替代传统3D编码器的功能。
  • 分层几何聚合(Hierarchical Geometry Aggregation):在指令调优阶段,ENEL引入了分层几何聚合策略。策略通过在LLM的早期层中对点云进行聚合和传播操作,将归纳偏置融入LLM,能关注点云的局部细节。具体而言,使用最远点采样(FPS)和k近邻(k-NN)算法对点云进行下采样和聚合,逐步整合点云的细粒度语义信息。

如何运行 ENEL

1. 安装

  1. 克隆仓库:

    git clone https://github.com/Ivan-Tang-3D/ENEL.git
    cd ENEL
    
  2. 安装依赖包:
    ```bash
    conda create -n ENEL python=3.10 -y
    conda activate ENEL
    pip install --upgrade pip # enable PEP 660 support
    pip install -e .

* for training

pip install ninja
pip install flash-attn

* for chamfer_dist

git clone https://github.com/Pang-Yatian/Point-MAE.git
cd ./extensions/chamfer_dist
python setup.py install --user


#### 2. 数据准备

##### Objaverse 训练数据

1. 下载660K Objaverse彩色点云文件(约77GB存储空间),解压并合并文件:
```bash
cat Objaverse_660K_8192_npy_split_a* > Objaverse_660K_8192_npy.tar.gz
tar -xvf Objaverse_660K_8192_npy.tar.gz
  1. ENEL目录下创建data文件夹,并创建软链接:
    cd ENEL
    mkdir data
    ln -s /path/to/8192_npy data/objaverse_data
    
指令跟随数据
  1. ENEL/data目录下创建anno_data文件夹,并下载指令跟随数据:
    ENEL/data/anno_data
    ├── PointLLM_brief_description_660K_filtered.json
    ├── PointLLM_brief_description_660K.json
    └── PointLLM_complex_instruction_70K.json
    
评估数据
  1. 下载引用GT文件并放入anno_data目录:
    ENEL/data/anno_data/PointLLM_brief_description_val_200_GT.json
    

3. 训练

  1. 下载初始LLM权重并放入checkpoints目录:

    cd ENEL
    mkdir checkpoints
    
  2. 开始训练:

    scripts/ENEL_train_stage1.sh
    scripts/ENEL_train_stage2.sh
    

4. 评估

  1. 下载推理权重并放入model_zoo目录:

    cd ENEL
    bash scripts/eval.sh
    
  2. 运行以下命令进行推理和评估:

    cd ENEL
    bash scripts/eval.sh
    

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
4天前
|
机器学习/深度学习 人工智能 数据可视化
生成AI的两大范式:扩散模型与Flow Matching的理论基础与技术比较
本文系统对比了扩散模型与Flow Matching两种生成模型技术。扩散模型通过逐步添加噪声再逆转过程生成数据,类比为沙堡的侵蚀与重建;Flow Matching构建分布间连续路径的速度场,如同矢量导航系统。两者在数学原理、训练动态及应用上各有优劣:扩散模型适合复杂数据,Flow Matching采样效率更高。文章结合实例解析两者的差异与联系,并探讨其在图像、音频等领域的实际应用,为生成建模提供了全面视角。
46 1
|
2天前
|
传感器 人工智能 物联网
健康监测设备的技术革命:AI+物联网如何让你随时掌握健康数据?
健康监测设备的技术革命:AI+物联网如何让你随时掌握健康数据?
60 19
|
4天前
|
人工智能 编解码
ReCamMaster:视频运镜AI革命!单镜头秒变多机位,AI重渲染颠覆创作
ReCamMaster 是由浙江大学与快手科技联合推出的视频重渲染框架,能够根据用户指定的相机轨迹重新生成视频内容,广泛应用于视频创作、后期制作、教育等领域,提升创作自由度和质量。
112 0
|
6天前
|
人工智能 监控 搜索推荐
MedRAG:医学AI革命!知识图谱+四层诊断,临床准确率飙升11.32%
MedRAG是南洋理工大学推出的医学诊断模型,结合知识图谱与大语言模型,提升诊断准确率11.32%,支持多模态输入与智能提问,适用于急诊、慢性病管理等多种场景。
103 32
MedRAG:医学AI革命!知识图谱+四层诊断,临床准确率飙升11.32%
|
5天前
|
人工智能 开发工具 C++
利用通义灵码AI在VS Code中快速开发扫雷游戏:Qwen2.5-Max模型的应用实例
本文介绍了如何利用阿里云通义灵码AI程序员的Qwen2.5-Max模型,在VS Code中一键生成扫雷小游戏。通过安装通义灵码插件并配置模型,输入指令即可自动生成包含游戏逻辑与UI设计的Python代码。生成的游戏支持难度选择,运行稳定无Bug。实践表明,AI工具显著提升开发效率,但人机协作仍是未来趋势。建议开发者积极拥抱新技术,同时不断提升自身技能以适应行业发展需求。
22044 6
|
10天前
|
人工智能 安全 数据可视化
一键部署谷歌最新开源多模态AI模型 Gemma 3:单GPU性能碾压Llama!支持35+种语言
Gemma 3 是谷歌最新推出的开源多模态AI模型,支持超过35种语言,具备文本、图像及短视频处理能力,提供四种模型尺寸,优化单GPU性能,适用于多种AI应用场景。
229 8
一键部署谷歌最新开源多模态AI模型 Gemma 3:单GPU性能碾压Llama!支持35+种语言
|
5天前
|
机器学习/深度学习 人工智能 数据处理
OpenBioMed:开源生物医学AI革命!20+工具链破解药物研发「死亡谷」
OpenBioMed 是清华大学智能产业研究院(AIR)和水木分子共同推出的开源平台,专注于 AI 驱动的生物医学研究,提供多模态数据处理、丰富的预训练模型和多样化的计算工具,助力药物研发、精准医疗和多模态理解。
41 1
OpenBioMed:开源生物医学AI革命!20+工具链破解药物研发「死亡谷」
|
6天前
|
存储 人工智能 物联网
ACK Gateway with AI Extension:大模型推理的模型灰度实践
本文介绍了如何使用 ACK Gateway with AI Extension 组件在云原生环境中实现大语言模型(LLM)推理服务的灰度发布和流量分发。该组件专为 LLM 推理场景设计,支持四层/七层流量路由,并提供基于模型服务器负载感知的智能负载均衡能力。通过自定义资源(CRD),如 InferencePool 和 InferenceModel,可以灵活配置推理服务的流量策略,包括模型灰度发布和流量镜像。
|
10天前
|
机器学习/深度学习 人工智能 自然语言处理
AI 世界生存手册(二):从LR到DeepSeek,模型慢慢变大了,也变强了
大家都可以通过写 prompt 来和大模型对话,那大模型之前的算法是怎样的,算法世界经过了哪些比较关键的发展,最后为什么是大模型这条路线走向了 AGI,作者用两篇文章共5.7万字详细探索一下。 第一篇文章指路👉《AI 世界生存手册(一):从LR到DeepSeek,模型慢慢变大了,也变强了》
AI 世界生存手册(二):从LR到DeepSeek,模型慢慢变大了,也变强了
|
3天前
|
机器学习/深度学习 人工智能 算法
当人文社科邂逅AI:思想革命浪潮中的技能进化论
本文探讨了人工智能时代人文社科领域的范式革命与思想重构,分析了AI对传统研究方法的冲击及跨学科融合带来的新机遇。生成式人工智能(GAI)认证为从业者提供了技能进化的方向,助力其掌握数据处理、跨学科合作等新能力。文章呼吁政府、高校和社会共同推动AI与人文社科的深度融合,以应对挑战并把握发展机遇,实现领域创新与人类文明进步。

热门文章

最新文章