iDP3：斯坦福大学联合多所高校推出的改进型3D视觉运动策略

2024-12-02 377

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： iDP3是由斯坦福大学联合多所高校推出的改进型3D视觉运动策略，旨在提升人形机器人在多样化环境中的自主操作能力。该策略基于自我中心的3D视觉表征，无需精确相机校准和点云分割，显著提高了机器人在未见过的环境中的实用性和灵活性。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

技术背景：iDP3基于自我中心的3D视觉表征，摒弃了对精确相机校准和点云分割的需求。
主要功能：iDP3在视图变化、新对象识别和新场景适应方面展现出卓越的泛化能力。
应用场景：iDP3可应用于家庭自动化、工业自动化、医疗辅助、搜索与救援及教育与培训等多个领域。

正文（附运行示例）

iDP3 是什么

公众号: 蚝油菜花 - Improved-3D-Diffusion-Policy

iDP3（Improved 3D Diffusion Policy）是斯坦福大学联合多所高校推出的改进型3D视觉运动策略，旨在提升人形机器人在多样化环境中的自主操作能力。与传统3D策略不同，iDP3基于自我中心的3D视觉表征，摒弃了对精确相机校准和点云分割的需求，使机器人能够在真实世界中灵活执行任务。

iDP3在视图变化、新对象识别和新场景适应方面展现出卓越的泛化能力，显著提高了人形机器人在未见过的环境中的实用性和灵活性。

iDP3 的主要功能

自我中心3D视觉表征：直接在相机帧中处理3D数据，消除对相机校准和点云分割的需求。
视图泛化：在视图发生大的变化时仍然准确地抓取物体，不受训练时特定视角的限制。
对象泛化：能处理在训练中未见过的物体，不依赖于特定对象的特征。
场景泛化：在未见过的环境中执行任务，即使这些环境在复杂性和噪声水平上与训练环境有所不同。
高效率：在训练和部署时表现出高效率，减少对大量数据集的依赖，快速适应新环境。

iDP3 的技术原理

3D视觉输入：基于从LiDAR相机获取的3D点云数据，提供机器人周围环境的详细空间信息。
自我中心视角：直接使用相机帧中的3D表示，不同于传统的3D策略。
扩大视觉输入：通过增加采样点的数量捕捉整个场景，提高对场景的全面理解。
改进的视觉编码器：用金字塔卷积编码器替代传统的多层感知器（MLP）视觉编码器，提高从人类示范中学习时的平滑性和准确性。
更长的预测视野：为应对人类专家的抖动和传感器噪声，基于延长预测视野提高学习效果。
优化和推理：在训练时使用AdamW优化器，用DDIM（Denoising Diffusion Implicit Models）进行扩散过程的优化和推理。

如何运行 iDP3

安装

首先，安装conda环境和相关包：

conda remove -n idp3 --all
conda create -n idp3 python=3.8
conda activate idp3

# 安装torch
pip3 install torch==2.1.0 torchvision --index-url https://download.pytorch.org/whl/cu121

# 安装其他依赖
pip install kaleido plotly open3d tyro termcolor h5py
cd third_party/visualizer && pip install -e . && cd ../..
pip install --no-cache-dir wandb ipdb gpustat visdom notebook mediapy torch_geometric natsort scikit-video easydict pandas moviepy imageio imageio-ffmpeg termcolor av open3d dm_control dill==0.3.5.1 hydra-core==1.2.0 einops==0.4.1 diffusers==0.11.1 zarr==2.12.0 numba==0.56.4 pygame==2.1.2 shapely==1.8.4 tensorboard==2.10.1 tensorboardx==2.5.1 absl-py==0.13.0 pyparsing==2.4.7 jupyterlab==3.0.14 scikit-image yapf==0.31.0 opencv-python==4.5.3.56 psutil av matplotlib setuptools==59.5.0

cd Improved-3D-Diffusion-Policy
pip install -e .
cd ..

# 安装timm和r3m
pip install timm==0.9.7
cd third_party/r3m && pip install -e . && cd ../..

使用

下载训练数据示例并解压，然后在scripts/train_policy.sh中指定数据集路径。例如：

dataset_path=/home/ze/projects/Improved-3D-Diffusion-Policy/training_data_example

训练策略：

bash scripts/train_policy.sh idp3 gr1_dex-3d 0913_example

部署策略：

bash scripts/deploy_policy.sh idp3 gr1_dex-3d 0913_example

可视化训练数据：

bash scripts/vis_dataset.sh

资源

项目官网：https://humanoid-manipulation.github.io/
GitHub 仓库：https://github.com/YanjieZe/Improved-3D-Diffusion-Policy
arXiv 技术论文：https://arxiv.org/pdf/2410.10803
Google Drive：https://drive.google.com/drive/folders/1f5Ln_d14OQ5eSjPDGnD7T4KQpacMhgCB?usp=sharing

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

iDP3：斯坦福大学联合多所高校推出的改进型3D视觉运动策略

🚀 快速阅读

正文（附运行示例）

iDP3 是什么

iDP3 的主要功能

iDP3 的技术原理

如何运行 iDP3

安装

使用

资源

计算机视觉

热门文章

最新文章

相关电子书