NeurIPS 2025 Spotlight!跨模态重识别革命!东北大学等 MDReID 图像信息智能匹配

简介: 东北大学等提出MDReID,获NeurIPS 2025 Spotlight!该方法实现跨模态行人重识别,创新性地将图像特征解耦为通用与专用特征,支持RGB、NIR、TIR等任意模态自由匹配,显著提升异源图像检索精度,推动安防、监控等领域智能化发展。

NeurIPS 2025 Spotlight!跨模态重识别革命!东北大学等 MDReID 图像信息智能匹配

论文标题:MDReID: Modality-Decoupled Learning for Any-to-Any Multi-Modal Object Re-Identification

作者团队:东北大学、厦门大学、新加坡国立大学

发布时间:2025年10月27日

👉一键直达论文

👉Lab4AI大模型实验室论文阅读

✅Lab4AI平台提供AI导读和AI翻译等工具,辅助论文阅读。

想象一下:警察想要通过监控录像找到一个嫌疑人。但是,不同监控摄像头的类型可能完全不同——有的拍的是普通的彩色照片(RGB),有的是黑白但能夜间看清的(NIR),还有的是能感知热量的热成像(TIR)。这就带来了一个难题:如果用一张彩色照片(RGB)去热成像(TIR)照片里找人,传统系统可能就失灵了。这篇论文就是为了解决这个“张冠李戴”的实际问题。它提出了一个叫 MDReID​ 的新方法,核心思想非常巧妙,叫做 “分而治之”。

⭐核心创新

MDReID 认为,任何一张图像包含的信息都可以分成两种:

  1. 通用特征:这是物体最本质的信息。比如一个人的体型、姿势、背包的形状。这些信息无论用什么摄像头拍,都应该差不多。
  2. 专用特征:这是某种摄像头特有的信息。如彩色摄像头能看到的衣服颜色,或者热成像摄像头能看到的身体热量分布。

MDReID 的核心技术即主动把这两种信息拆分开:

  1. 拆解信息:模型在分析图片时,会同时生成两组“密码”:通用特征和专用特征。对于一张彩色照片,模型既知道它里面包含的通用人体形状,也知道它特有的颜色信息。
  2. 智能对比:当需要比对两张图片时,MDReID 会进行智能匹配。专用特征只和同类型摄像头的专用特征比对(比如颜色和颜色比)。通用特征则可以跨类型自由比对(比如彩色照片里的人的体型,可以和热成像照片里的人的体型比)。

通过一种特殊的“训练法则”,模型会学习让通用特征尽可能相似,同时让通用特征和专用特征尽可能不同,避免信息冗余。

相关文章
|
机器学习/深度学习 算法 PyTorch
挑战Transformer的新架构Mamba解析以及Pytorch复现
今天我们来详细研究这篇论文“Mamba:具有选择性状态空间的线性时间序列建模”
2586 2
|
3月前
|
自然语言处理 物联网 Shell
从 50 步到 4 步:LightX2V 如何把视频生成拉进20 秒时代?
LightX2V 是一款轻量级视频生成框架,通过4步蒸馏技术,将传统需50步的扩散模型压缩至仅4步,推理速度提升20倍,生成质量依旧保持影院级水准。支持文生视频与图生视频,兼容LoRA、量化等部署方案,助力AIGC高效落地。
459 0
从 50 步到 4 步:LightX2V 如何把视频生成拉进20 秒时代?
|
3月前
|
机器学习/深度学习 人工智能 程序员
StackOverflow已经死亡了吗
StackOverflow曾是程序员的“圣地”,但AI崛起正改变这一格局。ChatGPT等工具以高效即时的优势分流用户,使其面临流量下滑与社区文化挑战。而新兴的大模型实验室Lab4AI则融合算力、实践与协作,构建AI时代下的开发者新生态。从问答到实践,开发者社区正在进化。
275 2
StackOverflow已经死亡了吗
|
5月前
|
机器学习/深度学习 人工智能 计算机视觉
让AI真正"看懂"世界:多模态表征空间构建秘籍
本文深入解析多模态学习的两大核心难题:多模态对齐与多模态融合,探讨如何让AI理解并关联图像、文字、声音等异构数据,实现类似人类的综合认知能力。
1870 6
|
3月前
|
人工智能 测试技术
NeurlPS 2025!多伦多大学TIRE助力3D/4D 生成精准保留主体身份
TIRE提出“追踪-补全-重投影”三阶段方法,实现主体驱动的3D/4D生成。通过视频跟踪识别缺失区域,定制2D模型补全纹理,并重投影至3D空间,提升生成一致性与质量,推动动态场景生成新进展。
165 8
NeurlPS 2025!多伦多大学TIRE助力3D/4D 生成精准保留主体身份
|
2月前
|
人工智能 数据可视化 API
看完《疯狂动物城》心痒痒?试试ComfyUI,让朱迪和尼克走进你的画布
看完《疯狂动物城》意犹未尽?用ComfyUI+Flux文生图模型,让朱迪和尼克跃然纸上!通过节点式工作流精准控制生成细节,还原动画级质感。毛发、表情、服饰皆栩栩如生,支持风格定制与角色一致性强的图像创作。无需高配硬件,Lab4AI平台一键部署,轻松实现你的创意构想。Anyone can create anything!
509 1
看完《疯狂动物城》心痒痒?试试ComfyUI,让朱迪和尼克走进你的画布
|
3月前
|
人工智能 异构计算
从帧到世界:面向世界模型的长视频生成
《从帧到世界》介绍面向世界模型的长视频生成新范式MMPL,由南京大学范琦团队提出。该方法通过“微观规划+宏观规划”双阶段策略,解决传统生成中的时域漂移与串行瓶颈,实现高物理合理性、强时空连贯的长视频生成,支持并行加速,为世界模型提供认知与预测世界的AI基础设施。
182 1
从帧到世界:面向世界模型的长视频生成
|
8月前
|
人工智能 物联网
“一丹一世界”三等奖 |咖菲猫咪_商业海报案例分享
“一丹一世界”三等奖 |咖菲猫咪_商业海报案例分享
385 85
|
3月前
|
人工智能 物联网 测试技术
Qwen-Image-Edit:全能图像编辑,驱动内容创作提质增效
通义千问团队开源Qwen-Image-Edit,基于20B模型,支持语义与外观双重编辑、精准中英文文字修改,具备SOTA图像编辑能力,可用于IP创作、风格迁移、文字修复等。
2565 6
|
3月前
|
人工智能 JSON 搜索推荐
《镜界构图师:Rokid AI眼镜赋能实时摄影构图AR指导系统》
基于Rokid CXR-M SDK,本文设计了一套AR实时摄影构图指导系统,融合AI分析与经典构图法则,通过智能眼镜叠加三分法、黄金分割等辅助线,提供场景自适应的可视化指导。系统实现相机控制、AR渲染与智能建议闭环,助力用户提升构图水平,推动摄影教育智能化升级。(239字)