Magma:微软放大招!新型多模态AI能看懂视频+浏览网页+UI交互+控制机器人,数字世界到物理现实无缝衔接

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: Magma 是微软研究院开发的多模态AI基础模型,结合语言、空间和时间智能,能够处理图像、视频和文本等多模态输入,适用于UI导航、机器人操作和复杂任务规划。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🌋 "当你的AI同时拥有眼睛和双手:微软Magma让机器人看懂视频自主行动,开发者时代变了!"

大家好,我是蚝油菜花。你是否设想过这样的未来:

  • 🤖 工业机器人看着监控视频自主排查故障
  • 🖥️ AI助手边读操作手册边帮你完成软件部署
  • 📱 手机自动分析教学视频执行APP全流程测试...

这一切正在被 微软Magma 变为现实!这个由微软研究院联合华盛顿大学打造的多模态基础模型,首次实现视觉理解-决策-执行全链路闭环。通过独创的Set-of-Mark技术,Magma不仅能看懂图像视频,更能将理解转化为精准动作——从点击网页按钮到操控机械臂,它正在重新定义AI代理的边界。

🚀 快速阅读

Magma 是一个新型多模态AI基础模型,能够完成数字和物理环境中的复杂任务。

  1. 多模态理解:处理图像、视频、文本,提取语义、空间和时间信息。
  2. 动作规划与执行:将复杂任务分解为可执行的动作序列,覆盖虚拟和现实场景。

Magma 是什么

Magma

Magma 是微软研究院推出的一款多模态AI基础模型,旨在为多模态人工智能代理(AI agents)提供通用能力。它结合了语言智能、空间智能和时间智能,可以理解和执行多模态输入的任务,适用于数字环境(如网页操作)和物理环境(如机器人控制)。Magma 基于大规模的视觉-语言数据和动作数据进行预训练,在零样本和微调设置下均表现出色,超越了现有专用模型。

Magma 的核心优势在于其通用性,无论是图像识别、视频理解,还是复杂的动作规划与执行,它都能胜任。通过引入 Set-of-Mark (SoM) 和 Trace-of-Mark (ToM) 技术,Magma 在空间理解和时间动态分析方面表现尤为突出。

Magma 的主要功能

  • 多模态理解:支持图像、视频、文本等多种模态的数据处理,能够提取语义、空间和时间信息,适用于从简单识别到复杂理解的任务。
  • 动作规划与执行:将复杂任务拆解为一系列动作序列,覆盖 UI 导航(如网页操作、移动应用控制)和物理环境中的机器人操作(如抓取、放置物体)。
  • 环境适应性:具备零样本适应能力,能够快速适配多种下游任务,包括 UI 导航、机器人操作和多模态理解。

Magma 的技术原理

Magma-pretrain

  • 预训练架构:使用卷积网络(如 ConvNeXt)作为视觉编码器,处理图像和视频数据,并将其与语言标记一起输入大型语言模型(LLM),生成动作序列或语言描述。
  • Set-of-Mark (SoM):标注图像中的可操作对象(如 GUI 按钮或目标位置),帮助模型实现动作落地(action grounding)。
  • Trace-of-Mark (ToM):标注视频中物体的运动轨迹(如机器人手臂路径),增强时间动态理解能力。
  • 多模态数据融合:整合图像、视频、机器人操作数据和多模态理解任务数据,统一到一个预训练框架中,提升模型的通用性和适应性。
  • 零样本和微调能力:预训练后直接应用于未见过的任务,具备强大的泛化能力;少量数据微调后性能进一步提升,满足特定任务需求。

如何运行 Magma

1. 直接使用

Magma 支持直接使用,无需微调即可完成以下任务:

  • 图像/视频条件文本生成:根据输入的图像和文本生成描述或回答问题。
  • 视觉规划能力:生成未来动作规划以完成任务(如移动物体)。
  • 代理能力:生成 UI 操作指令(如点击按钮)或机器人操作指令(如机械臂抓取)。

以下是 Magma 的一个简单示例代码:

from magma_api import MagmaModel

# 初始化模型
model = MagmaModel()

# 输入图像和文本
image_path = "example_image.jpg"
text_input = "请描述这张图片的内容。"

# 生成输出
output = model.generate(image_path, text_input)
print(output)

2. 微调下游任务

Magma 可以针对特定任务进行微调,例如:

  • 图像描述生成与问答
  • 视频描述生成与问答
  • UI 导航任务(如网页操作)
  • 机器人操作任务(如物体抓取与放置)

微调过程需要准备相应的任务数据集,并使用 Magma 提供的预训练权重进行迁移学习。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
2月前
|
人工智能 算法 开发者
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
219 10
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
|
25天前
|
机器学习/深度学习 人工智能 计算机视觉
让AI真正"看懂"世界:多模态表征空间构建秘籍
本文深入解析多模态学习的两大核心难题:多模态对齐与多模态融合,探讨如何让AI理解并关联图像、文字、声音等异构数据,实现类似人类的综合认知能力。
185 6
|
26天前
|
存储 人工智能 搜索推荐
一种专为AI代理设计的内存层,能够在交互过程中记忆、学习和进化
Mem0 是专为 AI 代理设计的内存层,支持记忆、学习与进化。提供多种记忆类型,可快速集成,适用于开源与托管场景,助力 AI 代理高效交互与成长。
250 123
一种专为AI代理设计的内存层,能够在交互过程中记忆、学习和进化
|
14天前
|
人工智能 自然语言处理 API
快速集成GPT-4o:下一代多模态AI实战指南
快速集成GPT-4o:下一代多模态AI实战指南
204 101
|
14天前
|
机器学习/深度学习 人工智能 自然语言处理
大语言模型:理解与构建下一代AI交互
大语言模型:理解与构建下一代AI交互
179 99
|
12天前
|
人工智能 机器人 Serverless
安诺机器人 X 阿里云函数计算 AI 咖啡印花解决方案
当云计算遇见具身智能,AI咖啡开启零售新体验。用户通过手机生成个性化图像,云端AI快速渲染,机器人精准复刻于咖啡奶泡之上,90秒内完成一杯可饮用的艺术品。该方案融合阿里云FunctionAI生图能力与安诺机器人高精度执行系统,实现AIGC创意到实体呈现的闭环,为线下零售提供低成本、高互动、易部署的智能化升级路径,已在商场、机场、展馆等场景落地应用。
安诺机器人 X 阿里云函数计算 AI 咖啡印花解决方案
|
17天前
|
机器学习/深度学习 人工智能 机器人
AI Compass前沿速览:Nano Bananary、MCP Registry、通义DeepResearch 、VoxCPM、InternVLA·M1具身机器人
AI Compass前沿速览:Nano Bananary、MCP Registry、通义DeepResearch 、VoxCPM、InternVLA·M1具身机器人
|
18天前
|
人工智能 Java 机器人
基于Spring AI Alibaba + Spring Boot + Ollama搭建本地AI对话机器人API
Spring AI Alibaba集成Ollama,基于Java构建本地大模型应用,支持流式对话、knife4j接口可视化,实现高隐私、免API密钥的离线AI服务。
370 1
基于Spring AI Alibaba + Spring Boot + Ollama搭建本地AI对话机器人API
|
2月前
|
人工智能 自然语言处理 机器人
AI Compass前沿速览:Jetson Thor英伟达AI计算、Gemini 2.5 Flash Image、Youtu腾讯智能体框架、Wan2.2-S2V多模态视频生成、SpatialGen 3D场景生成模型
AI Compass前沿速览:Jetson Thor英伟达AI计算、Gemini 2.5 Flash Image、Youtu腾讯智能体框架、Wan2.2-S2V多模态视频生成、SpatialGen 3D场景生成模型
AI Compass前沿速览:Jetson Thor英伟达AI计算、Gemini 2.5 Flash Image、Youtu腾讯智能体框架、Wan2.2-S2V多模态视频生成、SpatialGen 3D场景生成模型
|
15天前
|
人工智能 自然语言处理 算法
现代AI工具深度解析:从GPT到多模态的技术革命与实战应用
蒋星熠Jaxonic,AI技术探索者,深耕代码生成、多模态AI与提示词工程。分享AI工具架构、实战应用与优化策略,助力开发者提升效率,共赴智能编程新纪元。

热门文章

最新文章