EMMA-X:新加坡科技设计大学推出具身多模态动作模型,使夹爪机器人具备空间推理和任务规划能力

简介: EMMA-X是由新加坡科技设计大学推出的具身多模态动作模型,具备70亿参数,通过在链式思维推理数据上微调OpenVLA创建。该模型结合层次化的具身数据集,增强空间推理和任务规划能力。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 模型介绍:EMMA-X是新加坡科技设计大学推出的具身多模态动作模型,具备70亿参数,结合层次化的具身数据集。
  2. 主要功能:增强空间推理、具体化任务规划、轨迹分割、减少幻觉问题、层次化规划数据生成。
  3. 技术原理:基于BridgeV2数据集,采用前瞻性空间推理、轨迹分割策略和Gemini生成任务推理。

正文(附运行示例)

EMMA-X 是什么

公众号: 蚝油菜花 - Emma-X

EMMA-X是由新加坡科技设计大学推出的具身多模态动作模型,具备70亿参数,通过在链式思维推理数据上微调OpenVLA创建。该模型结合层次化的具身数据集,包含3D空间运动、2D夹爪位置和有根据的推理,推出一种新颖的轨迹分割策略,用夹爪的开合状态和机器人手臂的运动轨迹,增强有根据的任务推理和前瞻性空间推理。

在真实世界的机器人任务中,尤其是在需要空间推理的任务上,EMMA-X取得了显著的性能提升。

EMMA-X 的主要功能

  • 增强空间推理:基于预测夹爪的未来2D位置和3D运动计划,优化机器人的长期任务规划能力。
  • 具体化任务规划:模型结合视觉和任务推理,生成适应环境的行动策略,提高机器人执行复杂任务的能力。
  • 轨迹分割:用夹爪状态和机械臂运动轨迹,将操作序列分割成语义上相似的动作段,增强任务理解和运动规划。
  • 减少幻觉问题:结合视觉图像和任务推理,减少任务推理过程中的误差和幻觉。
  • 层次化规划数据生成:为每个操作段生成2D夹爪位置和3D空间运动,及具体化推理,支持机器人的决策过程。

EMMA-X 的技术原理

  • 层次化具身数据集:基于BridgeV2数据集构建,包含60,000条机器人操作轨迹,每条轨迹都附有详细的空间推理和任务推理信息。
  • 前瞻性空间推理:模型预测夹爪的未来位置和运动计划,指导机器人的即时动作与长期目标对齐。
  • 轨迹分割策略:用HDBSCAN算法和自定义的距离度量方法,结合末端执行器的运动轨迹和夹爪状态,动态分割操作序列。
  • Gemini生成任务推理:用Gemini模型为每个分段生成子任务和具体化推理,提高任务理解的准确性。

如何运行 EMMA-X

安装依赖

# 创建并激活conda环境
conda create -n openvla python=3.10 -y
conda activate openvla

# 安装PyTorch
conda install pytorch torchvision torchaudio pytorch-cuda=12.4 -c pytorch -c nvidia -y

# 安装其他依赖
pip install -r requirements-min.txt

# 安装Flash Attention 2
pip install packaging ninja
ninja --version; echo $?  # 验证Ninja是否安装成功
pip install "flash-attn==2.5.5" --no-build-isolation

运行示例

from transformers import AutoModelForVision2Seq, AutoProcessor
from PIL import Image
import torch

# 加载EMMA-X模型
vla = AutoModelForVision2Seq.from_pretrained(
    "declare-lab/Emma-X",
    attn_implementation="flash_attention_2",
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=True,
    trust_remote_code=True
).to("cuda:0")

# 获取图像输入并格式化提示
image: Image.Image = get_from_camera(...)
prompt = "In: What action should the robot take to achieve the instruction\nINSTRUCTION: \n{<Instruction here>}\n\nOut: "

# 预测动作
action, grounded_reasoning = vla.generate_actions(
    image=image, prompt_text=prompt, type="act", do_sample=False,
    max_new_tokens=512, do_sample=False
)

print("Grounded Reasoning:", grounded_reasoning)

# 执行动作
robot.act(action, ...)

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
8月前
|
负载均衡 测试技术 调度
大模型分布式推理:张量并行与流水线并行技术
本文深入探讨大语言模型分布式推理的核心技术——张量并行与流水线并行。通过分析单GPU内存限制下的模型部署挑战,详细解析张量并行的矩阵分片策略、流水线并行的阶段划分机制,以及二者的混合并行架构。文章包含完整的分布式推理框架实现、通信优化策略和性能调优指南,为千亿参数大模型的分布式部署提供全面解决方案。
2493 4
|
8月前
|
机器学习/深度学习 缓存 监控
大模型推理优化技术:KV缓存机制详解
本文深入探讨了大语言模型推理过程中的关键技术——KV缓存(Key-Value Cache)机制。通过对Transformer自注意力机制的分析,阐述了KV缓存的工作原理、实现方式及其对推理性能的显著优化效果。文章包含具体的代码实现和性能对比数据,为开发者理解和应用这一关键技术提供实践指导。
2492 9
|
9月前
|
机器学习/深度学习 人工智能 计算机视觉
让AI真正"看懂"世界:多模态表征空间构建秘籍
本文深入解析多模态学习的两大核心难题:多模态对齐与多模态融合,探讨如何让AI理解并关联图像、文字、声音等异构数据,实现类似人类的综合认知能力。
3895 6
|
10月前
|
并行计算 PyTorch 调度
大模型推理显存优化系列(4):eLLM-大模型推理中的弹性显存管理和优化
本文简要介绍eLLM相关技术挑战、总体设计和初步性能评估
|
10月前
|
负载均衡 并行计算 异构计算
大模型训练推理优化(5): FlexLink —— NVLink 带宽无损提升27%
本期我们将介绍蚂蚁集团ASystem团队在大模型通信优化上的新工作FlexLink,旨在通过动态聚合多路通信(NVLink,PCIe,RDMA),在H800等典型硬件上将典型通信算子如(AllReduce, All Gather)吞吐提升最高达27%,尤其适合大模型长序列推理(Prefill阶段),及训练等通信密集的带宽bound场景。方案对精度无影响。
|
11月前
|
消息中间件 人工智能 资源调度
云上AI推理平台全掌握 (5):大模型异步推理服务
针对大模型推理服务中“高计算量、长时延”场景下同步推理的弊端,阿里云人工智能平台 PAI 推出了一套基于独立的队列服务异步推理框架,解决了异步推理的负载均衡、实例异常时任务重分配等问题,确保请求不丢失、实例不过载。
|
11月前
|
人工智能 缓存 资源调度
云上AI推理平台全掌握 (4):大模型分发加速
为应对大模型服务突发流量场景,阿里云人工智能平台 PAI 推理服务 PAI-EAS 提供本地目录内存缓存(Memory Cache)的大模型分发加速功能,有效解决大量请求接入情况下的推理延迟。PAI-EAS 大模型分发加速功能,零代码即可轻松完成配置。
|
11月前
|
存储 机器学习/深度学习 缓存
阿里云AirCache技术实现多模态大模型高效推理加速,入选国际顶会ICCV2025
阿里云研发的AirCache技术被计算机视觉顶会ICCV2025收录,该技术通过激活跨模态关联、优化KV缓存压缩策略,显著提升视觉语言模型(VLMs)的推理效率与存储性能。实验表明,在保留仅10%视觉缓存的情况下,模型性能下降小于1%,解码延迟最高降低66%,吞吐量提升达192%。AirCache无需修改模型结构,兼容主流VLMs,已在教育、医疗、政务等多个行业落地应用,助力多模态大模型高效赋能产业智能化升级。
796 1
|
8月前
|
机器学习/深度学习 缓存 自然语言处理
【万字长文】大模型训练推理和性能优化算法总结和实践
我们是阿里云公共云 AI 汽车行业大模型技术团队,致力于通过专业的全栈 AI 技术推动 AI 的落地应用。
3577 40
【万字长文】大模型训练推理和性能优化算法总结和实践

热门文章

最新文章