Magma:微软放大招!新型多模态AI能看懂视频+浏览网页+UI交互+控制机器人,数字世界到物理现实无缝衔接

简介: Magma 是微软研究院开发的多模态AI基础模型,结合语言、空间和时间智能,能够处理图像、视频和文本等多模态输入,适用于UI导航、机器人操作和复杂任务规划。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🌋 "当你的AI同时拥有眼睛和双手:微软Magma让机器人看懂视频自主行动,开发者时代变了!"

大家好,我是蚝油菜花。你是否设想过这样的未来:

  • 🤖 工业机器人看着监控视频自主排查故障
  • 🖥️ AI助手边读操作手册边帮你完成软件部署
  • 📱 手机自动分析教学视频执行APP全流程测试...

这一切正在被 微软Magma 变为现实!这个由微软研究院联合华盛顿大学打造的多模态基础模型,首次实现视觉理解-决策-执行全链路闭环。通过独创的Set-of-Mark技术,Magma不仅能看懂图像视频,更能将理解转化为精准动作——从点击网页按钮到操控机械臂,它正在重新定义AI代理的边界。

🚀 快速阅读

Magma 是一个新型多模态AI基础模型,能够完成数字和物理环境中的复杂任务。

  1. 多模态理解:处理图像、视频、文本,提取语义、空间和时间信息。
  2. 动作规划与执行:将复杂任务分解为可执行的动作序列,覆盖虚拟和现实场景。

Magma 是什么

Magma

Magma 是微软研究院推出的一款多模态AI基础模型,旨在为多模态人工智能代理(AI agents)提供通用能力。它结合了语言智能、空间智能和时间智能,可以理解和执行多模态输入的任务,适用于数字环境(如网页操作)和物理环境(如机器人控制)。Magma 基于大规模的视觉-语言数据和动作数据进行预训练,在零样本和微调设置下均表现出色,超越了现有专用模型。

Magma 的核心优势在于其通用性,无论是图像识别、视频理解,还是复杂的动作规划与执行,它都能胜任。通过引入 Set-of-Mark (SoM) 和 Trace-of-Mark (ToM) 技术,Magma 在空间理解和时间动态分析方面表现尤为突出。

Magma 的主要功能

  • 多模态理解:支持图像、视频、文本等多种模态的数据处理,能够提取语义、空间和时间信息,适用于从简单识别到复杂理解的任务。
  • 动作规划与执行:将复杂任务拆解为一系列动作序列,覆盖 UI 导航(如网页操作、移动应用控制)和物理环境中的机器人操作(如抓取、放置物体)。
  • 环境适应性:具备零样本适应能力,能够快速适配多种下游任务,包括 UI 导航、机器人操作和多模态理解。

Magma 的技术原理

Magma-pretrain

  • 预训练架构:使用卷积网络(如 ConvNeXt)作为视觉编码器,处理图像和视频数据,并将其与语言标记一起输入大型语言模型(LLM),生成动作序列或语言描述。
  • Set-of-Mark (SoM):标注图像中的可操作对象(如 GUI 按钮或目标位置),帮助模型实现动作落地(action grounding)。
  • Trace-of-Mark (ToM):标注视频中物体的运动轨迹(如机器人手臂路径),增强时间动态理解能力。
  • 多模态数据融合:整合图像、视频、机器人操作数据和多模态理解任务数据,统一到一个预训练框架中,提升模型的通用性和适应性。
  • 零样本和微调能力:预训练后直接应用于未见过的任务,具备强大的泛化能力;少量数据微调后性能进一步提升,满足特定任务需求。

如何运行 Magma

1. 直接使用

Magma 支持直接使用,无需微调即可完成以下任务:

  • 图像/视频条件文本生成:根据输入的图像和文本生成描述或回答问题。
  • 视觉规划能力:生成未来动作规划以完成任务(如移动物体)。
  • 代理能力:生成 UI 操作指令(如点击按钮)或机器人操作指令(如机械臂抓取)。

以下是 Magma 的一个简单示例代码:

from magma_api import MagmaModel

# 初始化模型
model = MagmaModel()

# 输入图像和文本
image_path = "example_image.jpg"
text_input = "请描述这张图片的内容。"

# 生成输出
output = model.generate(image_path, text_input)
print(output)

2. 微调下游任务

Magma 可以针对特定任务进行微调,例如:

  • 图像描述生成与问答
  • 视频描述生成与问答
  • UI 导航任务(如网页操作)
  • 机器人操作任务(如物体抓取与放置)

微调过程需要准备相应的任务数据集,并使用 Magma 提供的预训练权重进行迁移学习。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
4月前
|
人工智能 API 数据安全/隐私保护
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
1155 12
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
|
5月前
|
存储 编解码 监控
针对3-15分钟视频的抽帧策略:让Qwen2.5 VL 32B理解视频内容
针对3-15分钟视频,提出高效抽帧策略:通过每5-10秒定间隔或关键帧检测方法,提取30-100帧关键图像,结合时间均匀采样与运动变化捕捉,降低冗余,提升Qwen2.5 VL 32B对视频内容的理解效率与准确性。
|
4月前
|
机器学习/深度学习 人工智能 人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
456 121
|
4月前
|
人工智能 人机交互 知识图谱
当AI学会“融会贯通”:多模态大模型如何重塑未来
当AI学会“融会贯通”:多模态大模型如何重塑未来
367 114
|
4月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
537 120
|
4月前
|
人工智能 安全 搜索推荐
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
403 117
|
4月前
|
人工智能 机器人 人机交互
当AI学会“看、听、懂”:多模态技术的现在与未来
当AI学会“看、听、懂”:多模态技术的现在与未来
371 117
|
5月前
|
人工智能 自然语言处理 API
快速集成GPT-4o:下一代多模态AI实战指南
快速集成GPT-4o:下一代多模态AI实战指南
508 101
|
4月前
|
人工智能 缓存 自然语言处理
Java与多模态AI:构建支持文本、图像和音频的智能应用
随着大模型从单一文本处理向多模态能力演进,现代AI应用需要同时处理文本、图像、音频等多种信息形式。本文深入探讨如何在Java生态中构建支持多模态AI能力的智能应用。我们将完整展示集成视觉模型、语音模型和语言模型的实践方案,涵盖从文件预处理、多模态推理到结果融合的全流程,为Java开发者打开通往下一代多模态AI应用的大门。
464 41
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
871 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型

热门文章

最新文章