Magma:微软放大招!新型多模态AI能看懂视频+浏览网页+UI交互+控制机器人,数字世界到物理现实无缝衔接

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: Magma 是微软研究院开发的多模态AI基础模型,结合语言、空间和时间智能,能够处理图像、视频和文本等多模态输入,适用于UI导航、机器人操作和复杂任务规划。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🌋 "当你的AI同时拥有眼睛和双手:微软Magma让机器人看懂视频自主行动,开发者时代变了!"

大家好,我是蚝油菜花。你是否设想过这样的未来:

  • 🤖 工业机器人看着监控视频自主排查故障
  • 🖥️ AI助手边读操作手册边帮你完成软件部署
  • 📱 手机自动分析教学视频执行APP全流程测试...

这一切正在被 微软Magma 变为现实!这个由微软研究院联合华盛顿大学打造的多模态基础模型,首次实现视觉理解-决策-执行全链路闭环。通过独创的Set-of-Mark技术,Magma不仅能看懂图像视频,更能将理解转化为精准动作——从点击网页按钮到操控机械臂,它正在重新定义AI代理的边界。

🚀 快速阅读

Magma 是一个新型多模态AI基础模型,能够完成数字和物理环境中的复杂任务。

  1. 多模态理解:处理图像、视频、文本,提取语义、空间和时间信息。
  2. 动作规划与执行:将复杂任务分解为可执行的动作序列,覆盖虚拟和现实场景。

Magma 是什么

Magma

Magma 是微软研究院推出的一款多模态AI基础模型,旨在为多模态人工智能代理(AI agents)提供通用能力。它结合了语言智能、空间智能和时间智能,可以理解和执行多模态输入的任务,适用于数字环境(如网页操作)和物理环境(如机器人控制)。Magma 基于大规模的视觉-语言数据和动作数据进行预训练,在零样本和微调设置下均表现出色,超越了现有专用模型。

Magma 的核心优势在于其通用性,无论是图像识别、视频理解,还是复杂的动作规划与执行,它都能胜任。通过引入 Set-of-Mark (SoM) 和 Trace-of-Mark (ToM) 技术,Magma 在空间理解和时间动态分析方面表现尤为突出。

Magma 的主要功能

  • 多模态理解:支持图像、视频、文本等多种模态的数据处理,能够提取语义、空间和时间信息,适用于从简单识别到复杂理解的任务。
  • 动作规划与执行:将复杂任务拆解为一系列动作序列,覆盖 UI 导航(如网页操作、移动应用控制)和物理环境中的机器人操作(如抓取、放置物体)。
  • 环境适应性:具备零样本适应能力,能够快速适配多种下游任务,包括 UI 导航、机器人操作和多模态理解。

Magma 的技术原理

Magma-pretrain

  • 预训练架构:使用卷积网络(如 ConvNeXt)作为视觉编码器,处理图像和视频数据,并将其与语言标记一起输入大型语言模型(LLM),生成动作序列或语言描述。
  • Set-of-Mark (SoM):标注图像中的可操作对象(如 GUI 按钮或目标位置),帮助模型实现动作落地(action grounding)。
  • Trace-of-Mark (ToM):标注视频中物体的运动轨迹(如机器人手臂路径),增强时间动态理解能力。
  • 多模态数据融合:整合图像、视频、机器人操作数据和多模态理解任务数据,统一到一个预训练框架中,提升模型的通用性和适应性。
  • 零样本和微调能力:预训练后直接应用于未见过的任务,具备强大的泛化能力;少量数据微调后性能进一步提升,满足特定任务需求。

如何运行 Magma

1. 直接使用

Magma 支持直接使用,无需微调即可完成以下任务:

  • 图像/视频条件文本生成:根据输入的图像和文本生成描述或回答问题。
  • 视觉规划能力:生成未来动作规划以完成任务(如移动物体)。
  • 代理能力:生成 UI 操作指令(如点击按钮)或机器人操作指令(如机械臂抓取)。

以下是 Magma 的一个简单示例代码:

from magma_api import MagmaModel

# 初始化模型
model = MagmaModel()

# 输入图像和文本
image_path = "example_image.jpg"
text_input = "请描述这张图片的内容。"

# 生成输出
output = model.generate(image_path, text_input)
print(output)

2. 微调下游任务

Magma 可以针对特定任务进行微调,例如:

  • 图像描述生成与问答
  • 视频描述生成与问答
  • UI 导航任务(如网页操作)
  • 机器人操作任务(如物体抓取与放置)

微调过程需要准备相应的任务数据集,并使用 Magma 提供的预训练权重进行迁移学习。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
8天前
|
人工智能 自然语言处理 监控
基于DeepSeek R1改进的AI安全模型!MAI-DS-R1:微软开源AI安全卫士,敏感话题响应率高达99.3%
微软开源的MAI-DS-R1是基于DeepSeek R1改进的AI模型,通过后训练优化将敏感话题响应率提升至99.3%,同时将有害内容风险降低50%,保持原版推理能力并增强多语言支持。
130 3
基于DeepSeek R1改进的AI安全模型!MAI-DS-R1:微软开源AI安全卫士,敏感话题响应率高达99.3%
|
5天前
|
人工智能 自然语言处理 安全
90.9K star!一键部署AI聊天界面,这个开源项目让大模型交互更简单!
"像使用微信一样操作大模型!Open WebUI 让AI对话从未如此简单"
|
2天前
|
Web App开发 人工智能 自然语言处理
Open Avatar Chat:阿里开源实时数字人对话系统,让AI对话实现2.2秒低延迟交互
Open Avatar Chat是阿里开源的模块化数字人对话系统,支持文本/音频/视频多模态交互,采用可替换组件设计,平均响应延迟仅2.2秒,为开发者提供灵活高效的解决方案。
123 4
Open Avatar Chat:阿里开源实时数字人对话系统,让AI对话实现2.2秒低延迟交互
|
26天前
|
机器学习/深度学习 存储 人工智能
Qlib:华尔街颤抖!微软开源金融AI量化投资神器,助力智能投研
Qlib是微软亚洲研究院推出的开源AI量化投资平台,提供从数据处理、模型训练到组合管理的全流程支持,内置高性能数据基础设施和多种机器学习模型。
238 19
Qlib:华尔街颤抖!微软开源金融AI量化投资神器,助力智能投研
|
26天前
|
机器学习/深度学习 人工智能 搜索推荐
AutoGLM沉思:智谱AI推出首个能"边想边干"的自主智能体!深度研究+多模态交互,颠覆传统AI工作模式
AutoGLM沉思是由智谱AI推出的一款开创性AI智能体,它突破性地将深度研究能力与实际操作能力融为一体,实现了AI从被动响应到主动执行的跨越式发展。
173 16
AutoGLM沉思:智谱AI推出首个能"边想边干"的自主智能体!深度研究+多模态交互,颠覆传统AI工作模式
|
20天前
|
人工智能 算法 安全
OpenRouter 推出百万 token 上下文 AI 模型!Quasar Alpha:提供完全免费的 API 服务,同时支持联网搜索和多模态交互
Quasar Alpha 是 OpenRouter 推出的预发布 AI 模型,具备百万级 token 上下文处理能力,在代码生成、指令遵循和低延迟响应方面表现卓越,同时支持联网搜索和多模态交互。
139 1
OpenRouter 推出百万 token 上下文 AI 模型!Quasar Alpha:提供完全免费的 API 服务,同时支持联网搜索和多模态交互
|
17天前
|
存储 人工智能 JSON
AI智能体内战终结者!A2A:谷歌开源的首个标准智能体交互协议,让AI用同一种“语言”交流
A2A是谷歌推出的首个标准化智能体交互协议,通过统一通信规范实现不同框架AI智能体的安全协作,支持多模态交互和长时任务管理,已有50多家企业加入生态。
117 0
AI智能体内战终结者!A2A:谷歌开源的首个标准智能体交互协议,让AI用同一种“语言”交流
|
1月前
|
人工智能 弹性计算 自然语言处理
5分钟部署,解锁100种和AI大模型的交互可能
在AI技术飞速发展的今天,个人大模型的部署与应用面临复杂流程和高门槛。阿里云推出高效、易用的个人AI大模型部署方案,支持多模型集成、灵活扩展和定制化主页,帮助用户快速搭建专属AI主页,实现智能化新体验,真正把“AI玩出花”。
|
1月前
|
人工智能 弹性计算 自然语言处理
5分钟部署,解锁100种和AI大模型的交互可能
阿里云弹性计算推出了一套高效、易用的个人AI大模型部署方案,帮助用户快速搭建专属的AI主页,开启智能化新体验,真正的实把“AI玩出花”。
|
1月前
|
缓存 人工智能 自然语言处理
微软发明全新LLM语言,AI智能体交互效率翻倍!
微软发布DroidSpeak技术,优化大型语言模型(LLM)间的通信,显著提升AI智能体交互效率。该技术通过嵌入缓存和键值缓存重用,减少预填充延迟,降低高达50%的延迟,同时保持高质量生成。DroidSpeak适用于多种AI任务,提高协作效率,但在资源受限环境和处理模型差异性方面仍面临挑战。
65 3

热门文章

最新文章

下一篇
oss创建bucket