Migician:清北华科联手放大招!多图像定位大模型问世:3秒锁定跨画面目标,安防监控迎来AI革命!

简介: Migician 是北交大联合清华、华中科大推出的多模态视觉定位模型,支持自由形式的跨图像精确定位、灵活输入形式和多种复杂任务。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


  • 🕵️♂️ 「监控室崩溃实录:8块屏幕20路视频,找个人要瞎?多图像AI定位神器来了!」

大家好,我是蚝油菜花。你是否经历过——

  • 🔍 翻遍监控录像,目标在多个镜头间「闪现」就是定位不准
  • 🚗 自动驾驶测试时,多摄像头数据各自为战漏判关键障碍物
  • 📑 学术论文配图分散,想对比图3与图5的细胞结构得来回翻页...

今天揭秘由北交大×清华×华科联手研发的 Migician 多模态大模型,它实现了:

  • ✅ 跨图像精准定位:支持「以图搜图」「文本+图像」组合查询
  • ✅ 端到端推理:1个模型处理20+图像关联分析
  • ✅ 百万级指令训练:MGrounding-630k数据集构建技术护城河

接下来我们将用安防/医疗案例,展示这个「多图像侦探」如何重塑视觉理解范式!

🚀 快速阅读

Migician 是一款专门用于自由形式多图像定位(Multi-Image Grounding, MIG)任务的多模态语言模型。

  1. 核心功能:支持跨图像对象定位、灵活的文本与图像组合查询、多任务处理能力。
  2. 技术原理:基于端到端框架设计,结合两阶段训练方法与大规模指令调优数据集 MGrounding-630k 提升定位性能。

Migician 是什么

Migician

Migician 是由北京交通大学、清华大学和华中科技大学的研究团队联合推出的一款多模态大语言模型(MLLM)。它专注于自由形式的多图像定位任务,能够根据文本描述、图像或两者的组合,在多幅图像中精确定位目标对象或区域。该模型通过两阶段训练方法,结合大规模指令调优数据集 MGrounding-630k,实现了端到端的多图像理解与定位能力。

Migician 的设计思路为复杂视觉场景中的多模态模型应用提供了新的可能性,尤其是在自动驾驶、安防监控等领域的多图像理解与细粒度视觉定位任务中展现了巨大潜力。

Migician 的主要功能

Migician-tasks

  • 跨图像定位:在多幅图像中找到与查询相关的对象或区域,并给出其精确位置(如坐标框)。
  • 灵活的输入形式:支持文本、图像或两者的组合作为查询,例如“在图2中找到与图1相似的物体,但颜色不同”。
  • 多任务支持:可处理多种与多图像相关的任务,如对象跟踪、差异识别、共同对象定位等。
  • 高效推理:基于端到端的模型设计,直接在多图像场景中进行推理,避免传统方法中的多步推理和错误传播问题。

Migician 的技术原理

  • 端到端的多图像定位框架:直接处理多图像定位任务,避免传统方法中将任务分解为多个子任务的复杂性和效率问题,同时理解多幅图像内容并根据查询输出目标对象的位置。
  • 大规模指令调优数据集(MGrounding-630k):包含超过 63 万条多图像定位任务的数据,涵盖静态差异定位、共同对象定位、对象跟踪等多种任务类型。
  • 两阶段训练方法
    • 第一阶段:在多种多图像任务上训练,学习基本的多图像理解和定位能力。
    • 第二阶段:基于自由形式的指令调优,提升模型在复杂查询下的定位能力。
  • 多模态融合与推理:结合视觉和语言模态信息,实现对复杂查询的理解和定位,处理抽象的视觉语义信息。

如何运行 Migician

1. 环境搭建

按照以下命令创建一个适合的运行环境:

conda env create -n migician python=3.10
git clone https://github.com/Michael4933/Migician.git
cd Migician
conda activate migician
pip install -r requirements.txt

2. 数据准备

下载训练数据集 MGrounding-630k 并解压到 ./data/MGrounding-630k 目录下。可通过脚本 ./data/download.py 实现一键快速下载。

3. 推理与评估

使用以下代码进行推理:

from transformers import Qwen2VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info
import torch

model = Qwen2VLForConditionalGeneration.from_pretrained(
    "Your_Migician_Path",
    torch_dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
    device_map="auto",
)

messages = [
    {
   
        "role": "user",
        "content": [
            {
   "type": "image", "image": resize("./figs/multi_view_1.png")},
            {
   "type": "image", "image": resize("./figs/multi_view_2.png")},
            {
   "type": "image", "image": resize("./figs/multi_view_3.png")},
            {
   "type": "image", "image": resize("./figs/multi_view_4.png")},
            {
   "type": "text", "text": "Please recognize the common person appearing in all these images and locate this person in all these image."}
        ]
    }
]

text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(text=[text], images=image_inputs, videos=video_inputs, padding=True, return_tensors="pt")
inputs = inputs.to("cuda")

generated_ids = model.generate(**inputs, max_new_tokens=128)
generated_ids_trimmed = [out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)]
output_text = processor.batch_decode(generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False)
print(output_text)

4. 模型微调

使用提供的两阶段训练脚本 stage-1_finetune_full.yamlstage-2_finetune_full.yaml 对模型进行微调。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
8月前
|
人工智能 文字识别 自然语言处理
从“看见”到“预见”:合合信息“多模态文本智能技术”如何引爆AI下一场革命。
近期,在第八届中国模式识别与计算机视觉学术会议(PRCV 2025)上,合合信息作为承办方举办了“多模态文本智能大模型前沿技术与应用”论坛,汇聚了学术界的顶尖智慧,更抛出了一颗重磅“炸弹”——“多模态文本智能技术”概念。
353 1
|
8月前
|
人工智能 自然语言处理 安全
从工具到伙伴:AI代理(Agent)是下一场革命
从工具到伙伴:AI代理(Agent)是下一场革命
847 117
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
88_多模态提示:图像与文本融合
在人工智能领域的快速发展中,多模态融合已成为突破单一模态限制、实现更全面智能理解的关键技术方向。人类理解世界的方式天然是多模态的——我们同时通过视觉、听觉、语言等多种感官获取信息并进行综合分析。例如,在餐厅点餐时,我们会同时处理菜单上的图片、服务员的介绍和菜品的文字描述,最终做出决策。这种自然的多模态信息整合能力,正是人工智能系统长期以来努力追求的目标。
936 0
|
8月前
|
人工智能 缓存 自然语言处理
Java与多模态AI:构建支持文本、图像和音频的智能应用
随着大模型从单一文本处理向多模态能力演进,现代AI应用需要同时处理文本、图像、音频等多种信息形式。本文深入探讨如何在Java生态中构建支持多模态AI能力的智能应用。我们将完整展示集成视觉模型、语音模型和语言模型的实践方案,涵盖从文件预处理、多模态推理到结果融合的全流程,为Java开发者打开通往下一代多模态AI应用的大门。
628 41
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
AIGC技术深度解析:生成式AI的革命性突破与产业应用实战
蒋星熠Jaxonic,AI技术探索者,深耕生成式AI领域。本文系统解析AIGC核心技术,涵盖Transformer架构、主流模型对比与实战应用,分享文本生成、图像创作等场景的实践经验,展望技术趋势与产业前景,助力开发者构建完整认知体系,共赴AI原生时代。
1683 2
|
9月前
|
机器学习/深度学习 人工智能 容灾
硅谷GPU云托管:驱动AI革命的下一代计算基石
在人工智能与高性能计算席卷全球的今天,硅谷作为科技创新的心脏,正通过GPU云托管服务重新定义计算能力的边界。无论您是初创公司的机器学习工程师,还是跨国企业的研究团队,硅谷GPU云托管已成为实现突破性创新的关键基础设施。
|
9月前
|
人工智能 JSON 搜索推荐
当AI遇上VR:个性化内容创作的“新次元”革命
当AI遇上VR:个性化内容创作的“新次元”革命
490 5
|
10月前
|
传感器 机器学习/深度学习 监控
【图像融合】差异的高斯:一种简单有效的通用图像融合方法[用于融合红外和可见光图像、多焦点图像、多模态医学图像和多曝光图像](Matlab代码实现)
【图像融合】差异的高斯:一种简单有效的通用图像融合方法[用于融合红外和可见光图像、多焦点图像、多模态医学图像和多曝光图像](Matlab代码实现)
503 0
|
11月前
|
人工智能 BI 语音技术
AR眼镜+AI大模型:颠覆工业设备验收流程的智能革命
本方案结合AR眼镜与AI视觉大模型,打造高效、精准、可追溯的设备验收流程。通过第一视角记录、智能识别、结构化数据生成与智能报表功能,提升验收效率与质量,助力企业实现智能化管理。
|
11月前
|
人工智能 搜索推荐 API
AI-Compass DeepSearch深度搜索生态:集成阿里ZeroSearch、字节DeerFlow、MindSearch等前沿平台,实现超越传统关键词匹配的智能信息检索革命
AI-Compass DeepSearch深度搜索生态:集成阿里ZeroSearch、字节DeerFlow、MindSearch等前沿平台,实现超越传统关键词匹配的智能信息检索革命
AI-Compass DeepSearch深度搜索生态:集成阿里ZeroSearch、字节DeerFlow、MindSearch等前沿平台,实现超越传统关键词匹配的智能信息检索革命

热门文章

最新文章