Magma:微软放大招!新型多模态AI能看懂视频+浏览网页+UI交互+控制机器人,数字世界到物理现实无缝衔接

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: Magma 是微软研究院开发的多模态AI基础模型,结合语言、空间和时间智能,能够处理图像、视频和文本等多模态输入,适用于UI导航、机器人操作和复杂任务规划。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🌋 "当你的AI同时拥有眼睛和双手:微软Magma让机器人看懂视频自主行动,开发者时代变了!"

大家好,我是蚝油菜花。你是否设想过这样的未来:

  • 🤖 工业机器人看着监控视频自主排查故障
  • 🖥️ AI助手边读操作手册边帮你完成软件部署
  • 📱 手机自动分析教学视频执行APP全流程测试...

这一切正在被 微软Magma 变为现实!这个由微软研究院联合华盛顿大学打造的多模态基础模型,首次实现视觉理解-决策-执行全链路闭环。通过独创的Set-of-Mark技术,Magma不仅能看懂图像视频,更能将理解转化为精准动作——从点击网页按钮到操控机械臂,它正在重新定义AI代理的边界。

🚀 快速阅读

Magma 是一个新型多模态AI基础模型,能够完成数字和物理环境中的复杂任务。

  1. 多模态理解:处理图像、视频、文本,提取语义、空间和时间信息。
  2. 动作规划与执行:将复杂任务分解为可执行的动作序列,覆盖虚拟和现实场景。

Magma 是什么

Magma

Magma 是微软研究院推出的一款多模态AI基础模型,旨在为多模态人工智能代理(AI agents)提供通用能力。它结合了语言智能、空间智能和时间智能,可以理解和执行多模态输入的任务,适用于数字环境(如网页操作)和物理环境(如机器人控制)。Magma 基于大规模的视觉-语言数据和动作数据进行预训练,在零样本和微调设置下均表现出色,超越了现有专用模型。

Magma 的核心优势在于其通用性,无论是图像识别、视频理解,还是复杂的动作规划与执行,它都能胜任。通过引入 Set-of-Mark (SoM) 和 Trace-of-Mark (ToM) 技术,Magma 在空间理解和时间动态分析方面表现尤为突出。

Magma 的主要功能

  • 多模态理解:支持图像、视频、文本等多种模态的数据处理,能够提取语义、空间和时间信息,适用于从简单识别到复杂理解的任务。
  • 动作规划与执行:将复杂任务拆解为一系列动作序列,覆盖 UI 导航(如网页操作、移动应用控制)和物理环境中的机器人操作(如抓取、放置物体)。
  • 环境适应性:具备零样本适应能力,能够快速适配多种下游任务,包括 UI 导航、机器人操作和多模态理解。

Magma 的技术原理

Magma-pretrain

  • 预训练架构:使用卷积网络(如 ConvNeXt)作为视觉编码器,处理图像和视频数据,并将其与语言标记一起输入大型语言模型(LLM),生成动作序列或语言描述。
  • Set-of-Mark (SoM):标注图像中的可操作对象(如 GUI 按钮或目标位置),帮助模型实现动作落地(action grounding)。
  • Trace-of-Mark (ToM):标注视频中物体的运动轨迹(如机器人手臂路径),增强时间动态理解能力。
  • 多模态数据融合:整合图像、视频、机器人操作数据和多模态理解任务数据,统一到一个预训练框架中,提升模型的通用性和适应性。
  • 零样本和微调能力:预训练后直接应用于未见过的任务,具备强大的泛化能力;少量数据微调后性能进一步提升,满足特定任务需求。

如何运行 Magma

1. 直接使用

Magma 支持直接使用,无需微调即可完成以下任务:

  • 图像/视频条件文本生成:根据输入的图像和文本生成描述或回答问题。
  • 视觉规划能力:生成未来动作规划以完成任务(如移动物体)。
  • 代理能力:生成 UI 操作指令(如点击按钮)或机器人操作指令(如机械臂抓取)。

以下是 Magma 的一个简单示例代码:

from magma_api import MagmaModel

# 初始化模型
model = MagmaModel()

# 输入图像和文本
image_path = "example_image.jpg"
text_input = "请描述这张图片的内容。"

# 生成输出
output = model.generate(image_path, text_input)
print(output)
AI 代码解读

2. 微调下游任务

Magma 可以针对特定任务进行微调,例如:

  • 图像描述生成与问答
  • 视频描述生成与问答
  • UI 导航任务(如网页操作)
  • 机器人操作任务(如物体抓取与放置)

微调过程需要准备相应的任务数据集,并使用 Magma 提供的预训练权重进行迁移学习。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

目录
打赏
0
2
2
0
382
分享
相关文章
斯坦福黑科技让笔记本GPU也能玩转AI视频生成!FramePack:压缩输入帧上下文长度!仅需6GB显存即可生成高清动画
斯坦福大学推出的FramePack技术通过压缩输入帧上下文长度,解决视频生成中的"遗忘"和"漂移"问题,仅需6GB显存即可在普通笔记本上实时生成高清视频。
232 19
斯坦福黑科技让笔记本GPU也能玩转AI视频生成!FramePack:压缩输入帧上下文长度!仅需6GB显存即可生成高清动画
高考理科题AI秒解!昆仑万维开源多模态推理模型 Skywork-R1V 2.0
Skywork-R1V 2.0是昆仑万维最新开源的多模态推理模型,通过混合强化学习和多模态奖励模型实现复杂推理任务,在理科题目解答和科研分析中展现出色性能。
73 11
高考理科题AI秒解!昆仑万维开源多模态推理模型 Skywork-R1V 2.0
让AI看懂3小时长视频!Eagle 2.5:英伟达推出8B视觉语言模型,长视频理解能力碾压72B大模型
Eagle 2.5是英伟达推出的8B参数视觉语言模型,通过创新训练策略在长视频和高分辨率图像理解任务中超越更大规模模型,支持512帧视频输入和多样化多模态任务。
78 10
让AI看懂3小时长视频!Eagle 2.5:英伟达推出8B视觉语言模型,长视频理解能力碾压72B大模型
AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画
万相首尾帧模型是阿里通义开源的14B参数规模视频生成模型,基于DiT架构和高效视频压缩VAE,能够根据首尾帧图像自动生成5秒720p高清视频,支持多种风格变换和细节复刻。
184 8
AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画
AI生成视频告别剪辑拼接!MAGI-1:开源自回归视频生成模型,支持一镜到底的长视频生成
MAGI-1是Sand AI开源的全球首个自回归视频生成大模型,采用创新架构实现高分辨率流畅视频生成,支持无限扩展和精细控制,在物理行为预测方面表现突出。
162 1
AI生成视频告别剪辑拼接!MAGI-1:开源自回归视频生成模型,支持一镜到底的长视频生成
多模态模型卷王诞生!InternVL3:上海AI Lab开源78B多模态大模型,支持图文视频全解析!
上海人工智能实验室开源的InternVL3系列多模态大语言模型,通过原生多模态预训练方法实现文本、图像、视频的统一处理,支持从1B到78B共7种参数规模。
152 6
多模态模型卷王诞生!InternVL3:上海AI Lab开源78B多模态大模型,支持图文视频全解析!
从虚拟到现实!Aether:上海AI Lab开源的生成式世界模型,4D动态重建+视觉规划全搞定
Aether是上海AI Lab开源的生成式世界模型,通过三维时空建模与生成式建模的深度融合,实现了4D动态重建、动作条件视频预测和目标导向视觉规划三大核心能力。
56 1
从虚拟到现实!Aether:上海AI Lab开源的生成式世界模型,4D动态重建+视觉规划全搞定
让AI看懂图像每个像素!英伟达推出多模态大模型 DAM-3B:图像视频局部描述精度提升300%
英伟达推出的DAM-3B多模态大语言模型,通过创新的焦点提示技术和局部视觉骨干网络,实现了对图像和视频中特定区域的精准描述生成,为内容创作和智能交互领域带来全新可能。
85 0
让AI看懂图像每个像素!英伟达推出多模态大模型 DAM-3B:图像视频局部描述精度提升300%
AI驱动的幼儿跌倒检测——视频安全系统的技术解析
幼儿跌倒检测系统基于AI视频技术,融合人体姿态识别与实时报警功能,为幼儿园安全管理提供智能化解决方案。系统通过YOLOv9、OpenPose等算法实现高精度跌倒检测(准确率达98%),结合LSTM时间序列分析减少误报,支持目标分类区分幼儿与成人,并具备事件存储、实时通知及开源部署优势。其高效、灵活、隐私合规的特点显著提升安全管理效率,助力优化园所运营。
AI驱动的幼儿跌倒检测——视频安全系统的技术解析
90.9K star!一键部署AI聊天界面,这个开源项目让大模型交互更简单!
"像使用微信一样操作大模型!Open WebUI 让AI对话从未如此简单"

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等