Migician:清北华科联手放大招!多图像定位大模型问世:3秒锁定跨画面目标,安防监控迎来AI革命!

本文涉及的产品
视觉智能开放平台,图像通用资源包5000点
视觉智能开放平台,视频通用资源包5000点
视觉智能开放平台,分割抠图1万点
简介: Migician 是北交大联合清华、华中科大推出的多模态视觉定位模型,支持自由形式的跨图像精确定位、灵活输入形式和多种复杂任务。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


  • 🕵️♂️ 「监控室崩溃实录:8块屏幕20路视频,找个人要瞎?多图像AI定位神器来了!」

大家好,我是蚝油菜花。你是否经历过——

  • 🔍 翻遍监控录像,目标在多个镜头间「闪现」就是定位不准
  • 🚗 自动驾驶测试时,多摄像头数据各自为战漏判关键障碍物
  • 📑 学术论文配图分散,想对比图3与图5的细胞结构得来回翻页...

今天揭秘由北交大×清华×华科联手研发的 Migician 多模态大模型,它实现了:

  • ✅ 跨图像精准定位:支持「以图搜图」「文本+图像」组合查询
  • ✅ 端到端推理:1个模型处理20+图像关联分析
  • ✅ 百万级指令训练:MGrounding-630k数据集构建技术护城河

接下来我们将用安防/医疗案例,展示这个「多图像侦探」如何重塑视觉理解范式!

🚀 快速阅读

Migician 是一款专门用于自由形式多图像定位(Multi-Image Grounding, MIG)任务的多模态语言模型。

  1. 核心功能:支持跨图像对象定位、灵活的文本与图像组合查询、多任务处理能力。
  2. 技术原理:基于端到端框架设计,结合两阶段训练方法与大规模指令调优数据集 MGrounding-630k 提升定位性能。

Migician 是什么

Migician

Migician 是由北京交通大学、清华大学和华中科技大学的研究团队联合推出的一款多模态大语言模型(MLLM)。它专注于自由形式的多图像定位任务,能够根据文本描述、图像或两者的组合,在多幅图像中精确定位目标对象或区域。该模型通过两阶段训练方法,结合大规模指令调优数据集 MGrounding-630k,实现了端到端的多图像理解与定位能力。

Migician 的设计思路为复杂视觉场景中的多模态模型应用提供了新的可能性,尤其是在自动驾驶、安防监控等领域的多图像理解与细粒度视觉定位任务中展现了巨大潜力。

Migician 的主要功能

Migician-tasks

  • 跨图像定位:在多幅图像中找到与查询相关的对象或区域,并给出其精确位置(如坐标框)。
  • 灵活的输入形式:支持文本、图像或两者的组合作为查询,例如“在图2中找到与图1相似的物体,但颜色不同”。
  • 多任务支持:可处理多种与多图像相关的任务,如对象跟踪、差异识别、共同对象定位等。
  • 高效推理:基于端到端的模型设计,直接在多图像场景中进行推理,避免传统方法中的多步推理和错误传播问题。

Migician 的技术原理

  • 端到端的多图像定位框架:直接处理多图像定位任务,避免传统方法中将任务分解为多个子任务的复杂性和效率问题,同时理解多幅图像内容并根据查询输出目标对象的位置。
  • 大规模指令调优数据集(MGrounding-630k):包含超过 63 万条多图像定位任务的数据,涵盖静态差异定位、共同对象定位、对象跟踪等多种任务类型。
  • 两阶段训练方法
    • 第一阶段:在多种多图像任务上训练,学习基本的多图像理解和定位能力。
    • 第二阶段:基于自由形式的指令调优,提升模型在复杂查询下的定位能力。
  • 多模态融合与推理:结合视觉和语言模态信息,实现对复杂查询的理解和定位,处理抽象的视觉语义信息。

如何运行 Migician

1. 环境搭建

按照以下命令创建一个适合的运行环境:

conda env create -n migician python=3.10
git clone https://github.com/Michael4933/Migician.git
cd Migician
conda activate migician
pip install -r requirements.txt

2. 数据准备

下载训练数据集 MGrounding-630k 并解压到 ./data/MGrounding-630k 目录下。可通过脚本 ./data/download.py 实现一键快速下载。

3. 推理与评估

使用以下代码进行推理:

from transformers import Qwen2VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info
import torch

model = Qwen2VLForConditionalGeneration.from_pretrained(
    "Your_Migician_Path",
    torch_dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
    device_map="auto",
)

messages = [
    {
   
        "role": "user",
        "content": [
            {
   "type": "image", "image": resize("./figs/multi_view_1.png")},
            {
   "type": "image", "image": resize("./figs/multi_view_2.png")},
            {
   "type": "image", "image": resize("./figs/multi_view_3.png")},
            {
   "type": "image", "image": resize("./figs/multi_view_4.png")},
            {
   "type": "text", "text": "Please recognize the common person appearing in all these images and locate this person in all these image."}
        ]
    }
]

text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(text=[text], images=image_inputs, videos=video_inputs, padding=True, return_tensors="pt")
inputs = inputs.to("cuda")

generated_ids = model.generate(**inputs, max_new_tokens=128)
generated_ids_trimmed = [out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)]
output_text = processor.batch_decode(generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False)
print(output_text)

4. 模型微调

使用提供的两阶段训练脚本 stage-1_finetune_full.yamlstage-2_finetune_full.yaml 对模型进行微调。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
4天前
|
人工智能 编解码 物联网
设计师集体破防!UNO:字节跳动创新AI图像生成框架,多个参考主体同框生成,位置/材质/光影完美对齐
UNO是字节跳动开发的AI图像生成框架,通过渐进式跨模态对齐和通用旋转位置嵌入技术,解决了多主体场景下的生成一致性问题。该框架支持单主体特征保持与多主体组合生成,在虚拟试穿、产品设计等领域展现强大泛化能力。
67 4
设计师集体破防!UNO:字节跳动创新AI图像生成框架,多个参考主体同框生成,位置/材质/光影完美对齐
|
9天前
|
人工智能 搜索推荐 自然语言处理
大模型落地的关键:如何用 RAG 打造更智能的 AI 搜索——阿里云 AI 搜索开放平台
本文分享了大模型落地的关键:如何用阿里云 AI 搜索开放平台 打造更智能的 AI 搜索。
大模型落地的关键:如何用 RAG 打造更智能的 AI 搜索——阿里云 AI 搜索开放平台
|
9天前
|
机器学习/深度学习 人工智能 计算机视觉
AI图像质感还原堪比专业摄影!Miracle F1:美图WHEE全新AI图像生成模型,支持超写实与多风格生成
美图WHEE推出的Miracle F1采用扩散模型技术,通过精准语义理解和多风格生成能力,可产出具有真实光影质感的专业级图像作品。
80 4
AI图像质感还原堪比专业摄影!Miracle F1:美图WHEE全新AI图像生成模型,支持超写实与多风格生成
|
8天前
|
机器学习/深度学习 人工智能 编解码
让AI绘画进入「指哪画哪」的精准时代!EasyControl:Tiamat AI 联合上海科大开源图像生成控制框架
EasyControl 是基于扩散变换器架构的高效灵活控制框架,通过轻量级条件注入模块实现多模态预训练支持,具备任意分辨率生成能力和显著优化的推理效率。
101 1
让AI绘画进入「指哪画哪」的精准时代!EasyControl:Tiamat AI 联合上海科大开源图像生成控制框架
|
8天前
|
人工智能 自然语言处理 Rust
【内附榜单】评估AI大模型的代码修复能力!Multi-SWE-bench:字节开源代码修复能力评估基准,覆盖7大主流编程语言
Multi-SWE-bench是首个覆盖Python外7种主流编程语言的代码修复基准,包含1632个真实GitHub问题样本,通过严格筛选与人工验证确保数据质量。
45 0
【内附榜单】评估AI大模型的代码修复能力!Multi-SWE-bench:字节开源代码修复能力评估基准,覆盖7大主流编程语言
|
16天前
|
机器学习/深度学习 人工智能 自然语言处理
AI大模型进阶系列(01)看懂AI大模型的主流技术 | AI对普通人的本质影响是什么
本文分享了作者在AI领域的创作心得与技术见解,涵盖从获奖经历到大模型核心技术的深入解析。内容包括大模型推理过程、LLM类型、prompt工程参数配置及最佳实践,以及RAG技术和模型微调的对比分析。同时探讨了AI对社会和个人的影响,特别是在deepseek出现后带来的技术革新与应用前景。适合希望了解AI大模型技术及其实际应用的读者学习参考。
|
2天前
|
人工智能 自然语言处理 搜索推荐
AI对话像真人!交交:上海交大推出全球首个口语对话情感大模型,支持多语言与实时音色克隆
上海交通大学推出的交交是全球首个纯学术界自研的口语对话情感大模型,具备多语言交流、方言理解、角色扮演和情感互动等能力,通过创新技术实现端到端语音对话和实时音色克隆。
41 14
AI对话像真人!交交:上海交大推出全球首个口语对话情感大模型,支持多语言与实时音色克隆
|
1天前
|
人工智能 算法 API
多模态模型卷王诞生!InternVL3:上海AI Lab开源78B多模态大模型,支持图文视频全解析!
上海人工智能实验室开源的InternVL3系列多模态大语言模型,通过原生多模态预训练方法实现文本、图像、视频的统一处理,支持从1B到78B共7种参数规模。
33 5
多模态模型卷王诞生!InternVL3:上海AI Lab开源78B多模态大模型,支持图文视频全解析!
|
13天前
|
机器学习/深度学习 人工智能 并行计算
AI部署架构:A100、H100、A800、H800、H20的差异以及如何选型?开发、测试、生产环境如何进行AI大模型部署架构?
AI部署架构:A100、H100、A800、H800、H20的差异以及如何选型?开发、测试、生产环境如何进行AI大模型部署架构?
AI部署架构:A100、H100、A800、H800、H20的差异以及如何选型?开发、测试、生产环境如何进行AI大模型部署架构?
|
4天前
|
人工智能 自然语言处理 搜索推荐
阿里云 AI 搜索开放平台新功能发布:大模型联网能力上线
阿里云 AI 搜索开放平台此次新增了大模型联网能力,通过集成大语言模型(LLM)和联网搜索技术,为用户提供更智能、更全面的搜索体验。
152 25

热门文章

最新文章