iDP3:斯坦福大学联合多所高校推出的改进型3D视觉运动策略

本文涉及的产品
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,视频资源包5000点
简介: iDP3是由斯坦福大学联合多所高校推出的改进型3D视觉运动策略,旨在提升人形机器人在多样化环境中的自主操作能力。该策略基于自我中心的3D视觉表征,无需精确相机校准和点云分割,显著提高了机器人在未见过的环境中的实用性和灵活性。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 技术背景:iDP3基于自我中心的3D视觉表征,摒弃了对精确相机校准和点云分割的需求。
  2. 主要功能:iDP3在视图变化、新对象识别和新场景适应方面展现出卓越的泛化能力。
  3. 应用场景:iDP3可应用于家庭自动化、工业自动化、医疗辅助、搜索与救援及教育与培训等多个领域。

正文(附运行示例)

iDP3 是什么

公众号: 蚝油菜花 - Improved-3D-Diffusion-Policy

iDP3(Improved 3D Diffusion Policy)是斯坦福大学联合多所高校推出的改进型3D视觉运动策略,旨在提升人形机器人在多样化环境中的自主操作能力。与传统3D策略不同,iDP3基于自我中心的3D视觉表征,摒弃了对精确相机校准和点云分割的需求,使机器人能够在真实世界中灵活执行任务。

iDP3在视图变化、新对象识别和新场景适应方面展现出卓越的泛化能力,显著提高了人形机器人在未见过的环境中的实用性和灵活性。

iDP3 的主要功能

  • 自我中心3D视觉表征:直接在相机帧中处理3D数据,消除对相机校准和点云分割的需求。
  • 视图泛化:在视图发生大的变化时仍然准确地抓取物体,不受训练时特定视角的限制。
  • 对象泛化:能处理在训练中未见过的物体,不依赖于特定对象的特征。
  • 场景泛化:在未见过的环境中执行任务,即使这些环境在复杂性和噪声水平上与训练环境有所不同。
  • 高效率:在训练和部署时表现出高效率,减少对大量数据集的依赖,快速适应新环境。

iDP3 的技术原理

  • 3D视觉输入:基于从LiDAR相机获取的3D点云数据,提供机器人周围环境的详细空间信息。
  • 自我中心视角:直接使用相机帧中的3D表示,不同于传统的3D策略。
  • 扩大视觉输入:通过增加采样点的数量捕捉整个场景,提高对场景的全面理解。
  • 改进的视觉编码器:用金字塔卷积编码器替代传统的多层感知器(MLP)视觉编码器,提高从人类示范中学习时的平滑性和准确性。
  • 更长的预测视野:为应对人类专家的抖动和传感器噪声,基于延长预测视野提高学习效果。
  • 优化和推理:在训练时使用AdamW优化器,用DDIM(Denoising Diffusion Implicit Models)进行扩散过程的优化和推理。

如何运行 iDP3

安装

首先,安装conda环境和相关包:

conda remove -n idp3 --all
conda create -n idp3 python=3.8
conda activate idp3

# 安装torch
pip3 install torch==2.1.0 torchvision --index-url https://download.pytorch.org/whl/cu121

# 安装其他依赖
pip install kaleido plotly open3d tyro termcolor h5py
cd third_party/visualizer && pip install -e . && cd ../..
pip install --no-cache-dir wandb ipdb gpustat visdom notebook mediapy torch_geometric natsort scikit-video easydict pandas moviepy imageio imageio-ffmpeg termcolor av open3d dm_control dill==0.3.5.1 hydra-core==1.2.0 einops==0.4.1 diffusers==0.11.1 zarr==2.12.0 numba==0.56.4 pygame==2.1.2 shapely==1.8.4 tensorboard==2.10.1 tensorboardx==2.5.1 absl-py==0.13.0 pyparsing==2.4.7 jupyterlab==3.0.14 scikit-image yapf==0.31.0 opencv-python==4.5.3.56 psutil av matplotlib setuptools==59.5.0

cd Improved-3D-Diffusion-Policy
pip install -e .
cd ..

# 安装timm和r3m
pip install timm==0.9.7
cd third_party/r3m && pip install -e . && cd ../..

使用

下载训练数据示例并解压,然后在scripts/train_policy.sh中指定数据集路径。例如:

dataset_path=/home/ze/projects/Improved-3D-Diffusion-Policy/training_data_example

训练策略:

bash scripts/train_policy.sh idp3 gr1_dex-3d 0913_example

部署策略:

bash scripts/deploy_policy.sh idp3 gr1_dex-3d 0913_example

可视化训练数据:

bash scripts/vis_dataset.sh

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
8月前
|
机器学习/深度学习 人工智能 文字识别
2023 第十二届中国智能产业高峰论坛 - 文档大模型的未来展望
2023 第十二届中国智能产业高峰论坛 - 文档大模型的未来展望
217 1
2023 第十二届中国智能产业高峰论坛 - 文档大模型的未来展望
|
2月前
|
人工智能 编解码
OmniBooth:华为诺亚方舟联合港科大推出的图像生成框架
OmniBooth是由华为诺亚方舟实验室和港科大研究团队联合推出的图像生成框架,支持基于文本提示或图像参考进行空间控制和实例级定制。该框架通过用户定义的掩码和相关联的文本或图像指导,精确控制图像中对象的位置和属性,提升文本到图像合成技术的可控性和实用性。
36 1
OmniBooth:华为诺亚方舟联合港科大推出的图像生成框架
|
4月前
|
人工智能
防AI换脸视频诈骗,中电金信联合复旦提出多模态鉴伪法,还入选顶会ACM MM
【9月更文挑战第26天】中电金信与复旦大学合作,提出一种基于身份信息增强的多媒体伪造检测方法,并入选ACM MM国际会议。该方法利用身份信息作为检测线索,构建了含54位名人324个视频的多模态伪造数据集IDForge,设计了参考辅助的多模态伪造检测网络R-MFDN,显著提升了检测性能,准确率达到92.90%。尽管如此,该方法仍存在一定局限性,如对非英语国家数据及无明确身份信息的视频检测效果可能受限。
100 4
|
8月前
|
机器学习/深度学习 人工智能 安全
DeepMind前成员推出Haiper:AI视频生成赛道再添新势力
【2月更文挑战第16天】DeepMind前成员推出Haiper:AI视频生成赛道再添新势力
371 2
DeepMind前成员推出Haiper:AI视频生成赛道再添新势力
|
8月前
|
人工智能 自然语言处理 搜索推荐
杭州悦数受邀参加《大模型驱动的智能知识图谱》标准首次专家研讨会
在数字化转型的大潮中,越来越多的数据正在以图的形式发生关联。有效地挖掘这些数据中的知识,以满足专业化和个性化需求的增长,已经成为一个迫切需要解决的问题。大语言模型(LLM)和知识图谱(KG)作为两种关键的知识处理技术,它们的能力具有高度的互补性,并正在经历深度融合的发展。
|
人工智能 数据安全/隐私保护
「WAIC 2022 · 可信隐私计算高峰论坛」学术交流会,诚邀学术菁英分享展示技术干货
「WAIC 2022 · 可信隐私计算高峰论坛」学术交流会,诚邀学术菁英分享展示技术干货
108 0
|
机器学习/深度学习 数据采集 人工智能
ICASSP 2022 | 89.46%检出率,网易云信音频实验室提出全球首个AI啸叫检测方案(2)
ICASSP 2022 | 89.46%检出率,网易云信音频实验室提出全球首个AI啸叫检测方案
216 0
|
新零售 编解码 人工智能
上海交大牵手淘宝成立媒体计算实验室:推动视频超分等关键技术发展
7月27日,上海交通大学电子信息与电气工程学院与阿里巴巴集团大淘宝技术宣布达成战略合作,共同成立上海交通大学电子信息与电气工程学院-淘宝(中国)软件有限公司媒体计算联合实验室(下称”联合实验室”)。该联合实验室是为了更好地探索未来媒体时代的极致体验,通过创新和产业结合,推动行业发展。
289 0
上海交大牵手淘宝成立媒体计算实验室:推动视频超分等关键技术发展
|
机器学习/深度学习 人工智能 自然语言处理
出门问问携手中科院自动化研究所,共建语音智能与人机交互联合实验室
2012 年 10 月,是一家在语音识别、语义分析、垂直探索等技术领域具备自主研发能力的人工智能公司。根据此前路透社报道,于 2015 年 11 月出门问问完成 C 轮融资后的累计融资金额达 7500 万美元,投资方包括 Google 、红杉资本、真格基金、SIG 海纳亚洲、圆美光电、及歌尔声学。
207 0
出门问问携手中科院自动化研究所,共建语音智能与人机交互联合实验室
|
人工智能 算法 搜索推荐

热门文章

最新文章