ICLR 2022 | 纯MLP的点云网络:新架构PointMLP大幅提高点云分类准确率和推理速度

简介: ICLR 2022 | 纯MLP的点云网络:新架构PointMLP大幅提高点云分类准确率和推理速度

来自美国东北大学 SmileLab,哥伦比亚大的研究者提出一种纯 MLP 的点云网络架构 PointMLP,在 ModelNet40、ScanObjectNN 等点云数据集上取得了非常好的结果,并大幅提升了推理速度。


3D 点云数据由于其无序性 (unorderness)、稀疏性(sparisity)和不规则性(irregularity)等特点,往往难以处理。为了描述 3D 数据的几何特征,研究者专注于局部几何的获取,提出各种基于卷积、图卷积或者注意力机制的「复杂的」局部几何描述模块。然而这些操作往往会导致较慢的推理速度,并没有带来实质的提高。


近日,来自美国东北大学和哥伦比亚大学的研究者发现,复杂的局部几何描述模块也许并不是 3D 网络的关键, 一个纯 MLP 架构的网络能取得更好的结果,并且能够大幅提升推理速度。该论文已被 ICLR 2022 接收,代码已经开源。



论文地址:https://arxiv.org/abs/2202.07123

代码地址:https://github.com/ma-xu/pointMLP-pytorch


模型概览


点云已成为 3D 视觉中的热门话题。最近的一些文章通过卷积、图、或注意力机制来提取点云中的局部几何特征。这些方法尽管取得了可喜的结果,但主要依赖于一个前提,即精细的局部提取器对于 3D 点云分析至关重要。然而这类方法也存在一些问题:一方面,由于这些操作会产生大量的计算和内存访问开销,并不能很好地应用于实践;另一方面,更复杂的局部操作设计很难进一步提高性能,因为之前的方法已经很好地描述了局部几何特性。因此,我们可能需要重新考虑复杂的局部特征提取器的必要性,并进一步重新审视点云分析中简洁的设计理念。


在本文中,研究者希望建立一个仅使用残差 MLP 模块进行点云分析的模型,从而无需一些精细的局部特征提取器,这样既避免了由复杂的局部操作引起的高额计算量和持续的内存访问,也利用了高度优化的 MLP 带来的效率优势。为了进一步提高性能和泛化能力,作者引入了一个轻量级的局部几何仿射模块,可以自适应地转换局部区域中的点特征。由此提出的新网络架构称为 PointMLP。下图显示了 PointMLP 在 modelNet40 上与其他网络的速度 / 准确率比较。



PointMLP 的架构非常简单,与传统的点云网络类似, PointMLP 也采用了阶段结构,每一阶段(stage)通过最远点下采样以减少计算量。下图展示了 PointMLP 任意一阶段的操作。


给定输入点云,PointMLP 使用残差点 MLP 块逐步提取局部特征。在每个阶段,PointMLP 首先使用几何仿射模块 (Geometric Affine Module)对局部点进行仿射变换,然后通过几个残差 MLP 模块 (Residual Point Block) 来提取深层的特征。注意此时的局部区域中仍包含多个点,作者通过一个简单的聚合器 (使用的是 max-pooling) 来将局部多个点聚合成一个点以描述局部信息, 并且再次使用残差 MLP 模块来提取特征。


PointMLP 通过重复多个阶段 (每个阶段中通道数翻倍) 逐步扩大感受野,并模拟完整的点云几何信息。为了进一步提高推理速度、减轻模型大小,该研究减少了每个阶段的通道数以及残差 MLP 模块的个数,并在残差 MLP 模块中引入了瓶颈 (bottleneck) 结构。研究者将得到的更加轻量化的版本称作 PointMLP-elite。


实验及结果


PointMLP 在多个数据集上大放异彩,刷新了多个数据集的最好成绩。不仅大幅提高了分类的准确率,还提供了更快的推理速度。值得注意的是,在 ScanObject NN 上,PointMLP 取得了 85.4% 的分类准确率(该研究给出代码的准确率达到 86.1%),大幅超越第二名的 82.8%。



总的来说,该研究提出了一种名为 PointMLP 的简单而强大的架构,用于 3D 点云分析。研究者指出复杂的局部几何提取器可能对于 3D 点云而言并不重要。基于此,研究者首先用简单的残差 MLP 抽取局部特征,因为 MLP 是位置置换不变且非常简单高效的, 然后提出了一个轻量级的几何仿射模块来提高性能。为了进一步提高效率,研究者还改进了一个更加轻量级的版本 PointMLP-elite。实验结果表明,PointMLP 在简单性和效率方面超越了以往的相关工作。研究者希望这个新颖的想法能够激发大家重新思考点云中的网络设计和局部几何操作。

相关文章
|
2月前
|
人工智能 测试技术 数据处理
首个Mamba+Transformer混合架构多模态大模型来了,实现单卡千图推理
【10月更文挑战第18天】《LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture》提出了一种新型多模态大模型LongLLaVA,结合了Mamba和Transformer架构,通过系统优化实现在单张A100 80GB GPU上处理近千张图像的突破。该模型在视频理解、高分辨率图像分析和多模态智能体任务中表现出色,显著提升了计算效率。
163 64
|
9天前
|
NoSQL 关系型数据库 MySQL
《docker高级篇(大厂进阶):4.Docker网络》包括:是什么、常用基本命令、能干嘛、网络模式、docker平台架构图解
《docker高级篇(大厂进阶):4.Docker网络》包括:是什么、常用基本命令、能干嘛、网络模式、docker平台架构图解
102 56
《docker高级篇(大厂进阶):4.Docker网络》包括:是什么、常用基本命令、能干嘛、网络模式、docker平台架构图解
|
9天前
|
机器学习/深度学习 算法 PyTorch
基于图神经网络的大语言模型检索增强生成框架研究:面向知识图谱推理的优化与扩展
本文探讨了图神经网络(GNN)与大型语言模型(LLM)结合在知识图谱问答中的应用。研究首先基于G-Retriever构建了探索性模型,然后深入分析了GNN-RAG架构,通过敏感性研究和架构改进,显著提升了模型的推理能力和答案质量。实验结果表明,改进后的模型在多个评估指标上取得了显著提升,特别是在精确率和召回率方面。最后,文章提出了反思机制和教师网络的概念,进一步增强了模型的推理能力。
32 4
基于图神经网络的大语言模型检索增强生成框架研究:面向知识图谱推理的优化与扩展
|
24天前
|
存储 人工智能 缓存
Mooncake:月之暗面Kimi联合清华等机构推出的大模型推理架构
Mooncake是由月之暗面Kimi联合清华大学等机构共同开源的大模型推理架构。该架构以KVCache为中心,通过分布式设计和资源优化,显著提升了大模型推理的吞吐量和效率,同时降低了算力开销。Mooncake在长上下文场景中表现出色,支持多种应用场景,如自然语言处理、内容推荐系统和搜索引擎等。
100 6
Mooncake:月之暗面Kimi联合清华等机构推出的大模型推理架构
|
23天前
|
机器学习/深度学习 资源调度 算法
图卷积网络入门:数学基础与架构设计
本文系统地阐述了图卷积网络的架构原理。通过简化数学表述并聚焦于矩阵运算的核心概念,详细解析了GCN的工作机制。
61 3
图卷积网络入门:数学基础与架构设计
|
1天前
|
人工智能 自然语言处理 PyTorch
Bamba-9B:基于 Mamba2 架构的仅解码语言模型,旨在提高大型语言模型在推理时的效率
Bamba-9B 是由 IBM、普林斯顿大学、卡内基梅隆大学和伊利诺伊大学香槟分校联合推出的基于 Mamba2 架构的仅解码语言模型。该模型在开放数据集上训练,旨在提高大型语言模型的推理效率,特别是在处理长文本时的内存带宽瓶颈。Bamba-9B 在推理时相较于标准变换器模型展现出 2.5 倍的吞吐量提升和 2 倍的延迟加速。
32 12
Bamba-9B:基于 Mamba2 架构的仅解码语言模型,旨在提高大型语言模型在推理时的效率
|
20天前
|
存储 人工智能 监控
【AI系统】推理系统架构
本文深入探讨了AI推理系统架构,特别是以NVIDIA Triton Inference Server为核心,涵盖推理、部署、服务化三大环节。Triton通过高性能、可扩展、多框架支持等特点,提供了一站式的模型服务解决方案。文章还介绍了模型预编排、推理引擎、返回与监控等功能,以及自定义Backend开发和模型生命周期管理的最佳实践,如金丝雀发布和回滚策略,旨在帮助构建高效、可靠的AI应用。
83 15
|
1月前
|
网络协议 数据挖掘 5G
适用于金融和交易应用的低延迟网络:技术、架构与应用
适用于金融和交易应用的低延迟网络:技术、架构与应用
69 5
|
1月前
|
供应链 监控 安全
网络安全中的零信任架构:从概念到部署
网络安全中的零信任架构:从概念到部署
|
1月前
|
监控 安全 网络安全
网络安全新前线:零信任架构的实践与挑战
网络安全新前线:零信任架构的实践与挑战
32 0