Magma:微软放大招!新型多模态AI能看懂视频+浏览网页+UI交互+控制机器人,数字世界到物理现实无缝衔接

简介: Magma 是微软研究院开发的多模态AI基础模型,结合语言、空间和时间智能,能够处理图像、视频和文本等多模态输入,适用于UI导航、机器人操作和复杂任务规划。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🌋 "当你的AI同时拥有眼睛和双手:微软Magma让机器人看懂视频自主行动,开发者时代变了!"

大家好,我是蚝油菜花。你是否设想过这样的未来:

  • 🤖 工业机器人看着监控视频自主排查故障
  • 🖥️ AI助手边读操作手册边帮你完成软件部署
  • 📱 手机自动分析教学视频执行APP全流程测试...

这一切正在被 微软Magma 变为现实!这个由微软研究院联合华盛顿大学打造的多模态基础模型,首次实现视觉理解-决策-执行全链路闭环。通过独创的Set-of-Mark技术,Magma不仅能看懂图像视频,更能将理解转化为精准动作——从点击网页按钮到操控机械臂,它正在重新定义AI代理的边界。

🚀 快速阅读

Magma 是一个新型多模态AI基础模型,能够完成数字和物理环境中的复杂任务。

  1. 多模态理解:处理图像、视频、文本,提取语义、空间和时间信息。
  2. 动作规划与执行:将复杂任务分解为可执行的动作序列,覆盖虚拟和现实场景。

Magma 是什么

Magma

Magma 是微软研究院推出的一款多模态AI基础模型,旨在为多模态人工智能代理(AI agents)提供通用能力。它结合了语言智能、空间智能和时间智能,可以理解和执行多模态输入的任务,适用于数字环境(如网页操作)和物理环境(如机器人控制)。Magma 基于大规模的视觉-语言数据和动作数据进行预训练,在零样本和微调设置下均表现出色,超越了现有专用模型。

Magma 的核心优势在于其通用性,无论是图像识别、视频理解,还是复杂的动作规划与执行,它都能胜任。通过引入 Set-of-Mark (SoM) 和 Trace-of-Mark (ToM) 技术,Magma 在空间理解和时间动态分析方面表现尤为突出。

Magma 的主要功能

  • 多模态理解:支持图像、视频、文本等多种模态的数据处理,能够提取语义、空间和时间信息,适用于从简单识别到复杂理解的任务。
  • 动作规划与执行:将复杂任务拆解为一系列动作序列,覆盖 UI 导航(如网页操作、移动应用控制)和物理环境中的机器人操作(如抓取、放置物体)。
  • 环境适应性:具备零样本适应能力,能够快速适配多种下游任务,包括 UI 导航、机器人操作和多模态理解。

Magma 的技术原理

Magma-pretrain

  • 预训练架构:使用卷积网络(如 ConvNeXt)作为视觉编码器,处理图像和视频数据,并将其与语言标记一起输入大型语言模型(LLM),生成动作序列或语言描述。
  • Set-of-Mark (SoM):标注图像中的可操作对象(如 GUI 按钮或目标位置),帮助模型实现动作落地(action grounding)。
  • Trace-of-Mark (ToM):标注视频中物体的运动轨迹(如机器人手臂路径),增强时间动态理解能力。
  • 多模态数据融合:整合图像、视频、机器人操作数据和多模态理解任务数据,统一到一个预训练框架中,提升模型的通用性和适应性。
  • 零样本和微调能力:预训练后直接应用于未见过的任务,具备强大的泛化能力;少量数据微调后性能进一步提升,满足特定任务需求。

如何运行 Magma

1. 直接使用

Magma 支持直接使用,无需微调即可完成以下任务:

  • 图像/视频条件文本生成:根据输入的图像和文本生成描述或回答问题。
  • 视觉规划能力:生成未来动作规划以完成任务(如移动物体)。
  • 代理能力:生成 UI 操作指令(如点击按钮)或机器人操作指令(如机械臂抓取)。

以下是 Magma 的一个简单示例代码:

from magma_api import MagmaModel

# 初始化模型
model = MagmaModel()

# 输入图像和文本
image_path = "example_image.jpg"
text_input = "请描述这张图片的内容。"

# 生成输出
output = model.generate(image_path, text_input)
print(output)

2. 微调下游任务

Magma 可以针对特定任务进行微调,例如:

  • 图像描述生成与问答
  • 视频描述生成与问答
  • UI 导航任务(如网页操作)
  • 机器人操作任务(如物体抓取与放置)

微调过程需要准备相应的任务数据集,并使用 Magma 提供的预训练权重进行迁移学习。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
6月前
|
存储 人工智能 搜索推荐
一种专为AI代理设计的内存层,能够在交互过程中记忆、学习和进化
Mem0 是专为 AI 代理设计的内存层,支持记忆、学习与进化。提供多种记忆类型,可快速集成,适用于开源与托管场景,助力 AI 代理高效交互与成长。
673 123
一种专为AI代理设计的内存层,能够在交互过程中记忆、学习和进化
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
大语言模型:理解与构建下一代AI交互
大语言模型:理解与构建下一代AI交互
307 99
|
8月前
|
人工智能 自然语言处理 运维
阿里云 X 瓴羊:AI Stack一体机上新解决方案,重构企业问数与客服交互
简介:瓴羊基于阿里云AI Stack推出智能问数与智能客服一体机,以“低成本、零门槛”实现数据分析与客服效率的显著提升,助力企业智能化升级。
725 0
|
11月前
|
人工智能 自然语言处理 监控
基于DeepSeek R1改进的AI安全模型!MAI-DS-R1:微软开源AI安全卫士,敏感话题响应率高达99.3%
微软开源的MAI-DS-R1是基于DeepSeek R1改进的AI模型,通过后训练优化将敏感话题响应率提升至99.3%,同时将有害内容风险降低50%,保持原版推理能力并增强多语言支持。
1271 3
基于DeepSeek R1改进的AI安全模型!MAI-DS-R1:微软开源AI安全卫士,敏感话题响应率高达99.3%
|
11月前
|
人工智能 自然语言处理 安全
90.9K star!一键部署AI聊天界面,这个开源项目让大模型交互更简单!
"像使用微信一样操作大模型!Open WebUI 让AI对话从未如此简单"
1168 0
|
8月前
|
人工智能 安全 Serverless
企业AI落地实践(三):使用 AI 网关解决 AI Agent 与 LLM 的交互挑战
无论是编码方式构建 AI Agent,还是可视化流程式构建 AI Agent,一旦脱离了 LLM,就不存在 AI 一说了。所以 AI Agent 如何合理地、生产级地与 LLM 结合,将是我们今天文章的核心内容。
921 17
|
6月前
|
人工智能 机器人 计算机视觉
当AI有了“分身”:虚拟化身与情感交互的实战指南
当AI有了“分身”:虚拟化身与情感交互的实战指南
525 0
|
人工智能 开发框架 自然语言处理
【图文详解】探秘 Prompt 工程:AI 交互的关键密码
【图文详解】探秘 Prompt 工程:AI 交互的关键密码
|
10月前
|
人工智能 搜索推荐 程序员
程序员圈爆火,狂揽2.4K星!1秒内AI语音双向对话,支持个性化发音和多端适配,颠覆你的交互想象!
RealtimeVoiceChat是一款基于现代Web技术的开源实时语音对话工具,无需下载任何软件,打开浏览器即可与AI实时语音互动。其核心亮点包括零安装体验、超低延迟、高度可定制化以及跨平台兼容等特性。通过Web Speech API实现毫秒级语音合成,支持多参数精细控制(如音色、语速、音调等),并提供隐私安全保障。项目适用于无障碍辅助、语言学习、智能客服及内容创作等多个场景。开发者可快速集成GPT/Claude等大模型,扩展为企业级应用。此外,随着Web Speech API普及率提升,该项目有望推动语音交互在教育、智能家居等领域的发展
1066 4
|
11月前
|
存储 人工智能 JSON
AI智能体内战终结者!A2A:谷歌开源的首个标准智能体交互协议,让AI用同一种“语言”交流
A2A是谷歌推出的首个标准化智能体交互协议,通过统一通信规范实现不同框架AI智能体的安全协作,支持多模态交互和长时任务管理,已有50多家企业加入生态。
881 0
AI智能体内战终结者!A2A:谷歌开源的首个标准智能体交互协议,让AI用同一种“语言”交流

热门文章

最新文章