Magma：微软放大招！新型多模态AI能看懂视频+浏览网页+UI交互+控制机器人，数字世界到物理现实无缝衔接

2025-02-20 1012

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Magma 是微软研究院开发的多模态AI基础模型，结合语言、空间和时间智能，能够处理图像、视频和文本等多模态输入，适用于UI导航、机器人操作和复杂任务规划。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发感兴趣，我会每日分享大模型与 AI 领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦

🌋 "当你的AI同时拥有眼睛和双手：微软Magma让机器人看懂视频自主行动，开发者时代变了！"

大家好，我是蚝油菜花。你是否设想过这样的未来：

🤖 工业机器人看着监控视频自主排查故障
🖥️ AI助手边读操作手册边帮你完成软件部署
📱 手机自动分析教学视频执行APP全流程测试...

这一切正在被微软Magma 变为现实！这个由微软研究院联合华盛顿大学打造的多模态基础模型，首次实现视觉理解-决策-执行全链路闭环。通过独创的Set-of-Mark技术，Magma不仅能看懂图像视频，更能将理解转化为精准动作——从点击网页按钮到操控机械臂，它正在重新定义AI代理的边界。

🚀 快速阅读

Magma 是一个新型多模态AI基础模型，能够完成数字和物理环境中的复杂任务。

多模态理解：处理图像、视频、文本，提取语义、空间和时间信息。
动作规划与执行：将复杂任务分解为可执行的动作序列，覆盖虚拟和现实场景。

Magma 是什么

Magma

Magma 是微软研究院推出的一款多模态AI基础模型，旨在为多模态人工智能代理（AI agents）提供通用能力。它结合了语言智能、空间智能和时间智能，可以理解和执行多模态输入的任务，适用于数字环境（如网页操作）和物理环境（如机器人控制）。Magma 基于大规模的视觉-语言数据和动作数据进行预训练，在零样本和微调设置下均表现出色，超越了现有专用模型。

Magma 的核心优势在于其通用性，无论是图像识别、视频理解，还是复杂的动作规划与执行，它都能胜任。通过引入 Set-of-Mark (SoM) 和 Trace-of-Mark (ToM) 技术，Magma 在空间理解和时间动态分析方面表现尤为突出。

Magma 的主要功能

多模态理解：支持图像、视频、文本等多种模态的数据处理，能够提取语义、空间和时间信息，适用于从简单识别到复杂理解的任务。
动作规划与执行：将复杂任务拆解为一系列动作序列，覆盖 UI 导航（如网页操作、移动应用控制）和物理环境中的机器人操作（如抓取、放置物体）。
环境适应性：具备零样本适应能力，能够快速适配多种下游任务，包括 UI 导航、机器人操作和多模态理解。

Magma 的技术原理

Magma-pretrain

预训练架构：使用卷积网络（如 ConvNeXt）作为视觉编码器，处理图像和视频数据，并将其与语言标记一起输入大型语言模型（LLM），生成动作序列或语言描述。
Set-of-Mark (SoM)：标注图像中的可操作对象（如 GUI 按钮或目标位置），帮助模型实现动作落地（action grounding）。
Trace-of-Mark (ToM)：标注视频中物体的运动轨迹（如机器人手臂路径），增强时间动态理解能力。
多模态数据融合：整合图像、视频、机器人操作数据和多模态理解任务数据，统一到一个预训练框架中，提升模型的通用性和适应性。
零样本和微调能力：预训练后直接应用于未见过的任务，具备强大的泛化能力；少量数据微调后性能进一步提升，满足特定任务需求。

如何运行 Magma

1. 直接使用

Magma 支持直接使用，无需微调即可完成以下任务：

图像/视频条件文本生成：根据输入的图像和文本生成描述或回答问题。
视觉规划能力：生成未来动作规划以完成任务（如移动物体）。
代理能力：生成 UI 操作指令（如点击按钮）或机器人操作指令（如机械臂抓取）。

以下是 Magma 的一个简单示例代码：

from magma_api import MagmaModel

# 初始化模型
model = MagmaModel()

# 输入图像和文本
image_path = "example_image.jpg"
text_input = "请描述这张图片的内容。"

# 生成输出
output = model.generate(image_path, text_input)
print(output)

2. 微调下游任务

Magma 可以针对特定任务进行微调，例如：

图像描述生成与问答
视频描述生成与问答
UI 导航任务（如网页操作）
机器人操作任务（如物体抓取与放置）

微调过程需要准备相应的任务数据集，并使用 Magma 提供的预训练权重进行迁移学习。

资源

项目官网：https://microsoft.github.io/Magma/
GitHub 仓库：https://github.com/microsoft/Magma

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦

Magma：微软放大招！新型多模态AI能看懂视频+浏览网页+UI交互+控制机器人，数字世界到物理现实无缝衔接

🚀 快速阅读

Magma 是什么

Magma 的主要功能

Magma 的技术原理

如何运行 Magma

1. 直接使用

2. 微调下游任务

资源

多模态

热门文章

最新文章

相关课程

相关电子书

相关实验场景