❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
🚀 快速阅读
- 技术背景:iDP3基于自我中心的3D视觉表征,摒弃了对精确相机校准和点云分割的需求。
- 主要功能:iDP3在视图变化、新对象识别和新场景适应方面展现出卓越的泛化能力。
- 应用场景:iDP3可应用于家庭自动化、工业自动化、医疗辅助、搜索与救援及教育与培训等多个领域。
正文(附运行示例)
iDP3 是什么
iDP3(Improved 3D Diffusion Policy)是斯坦福大学联合多所高校推出的改进型3D视觉运动策略,旨在提升人形机器人在多样化环境中的自主操作能力。与传统3D策略不同,iDP3基于自我中心的3D视觉表征,摒弃了对精确相机校准和点云分割的需求,使机器人能够在真实世界中灵活执行任务。
iDP3在视图变化、新对象识别和新场景适应方面展现出卓越的泛化能力,显著提高了人形机器人在未见过的环境中的实用性和灵活性。
iDP3 的主要功能
- 自我中心3D视觉表征:直接在相机帧中处理3D数据,消除对相机校准和点云分割的需求。
- 视图泛化:在视图发生大的变化时仍然准确地抓取物体,不受训练时特定视角的限制。
- 对象泛化:能处理在训练中未见过的物体,不依赖于特定对象的特征。
- 场景泛化:在未见过的环境中执行任务,即使这些环境在复杂性和噪声水平上与训练环境有所不同。
- 高效率:在训练和部署时表现出高效率,减少对大量数据集的依赖,快速适应新环境。
iDP3 的技术原理
- 3D视觉输入:基于从LiDAR相机获取的3D点云数据,提供机器人周围环境的详细空间信息。
- 自我中心视角:直接使用相机帧中的3D表示,不同于传统的3D策略。
- 扩大视觉输入:通过增加采样点的数量捕捉整个场景,提高对场景的全面理解。
- 改进的视觉编码器:用金字塔卷积编码器替代传统的多层感知器(MLP)视觉编码器,提高从人类示范中学习时的平滑性和准确性。
- 更长的预测视野:为应对人类专家的抖动和传感器噪声,基于延长预测视野提高学习效果。
- 优化和推理:在训练时使用AdamW优化器,用DDIM(Denoising Diffusion Implicit Models)进行扩散过程的优化和推理。
如何运行 iDP3
安装
首先,安装conda环境和相关包:
conda remove -n idp3 --all
conda create -n idp3 python=3.8
conda activate idp3
# 安装torch
pip3 install torch==2.1.0 torchvision --index-url https://download.pytorch.org/whl/cu121
# 安装其他依赖
pip install kaleido plotly open3d tyro termcolor h5py
cd third_party/visualizer && pip install -e . && cd ../..
pip install --no-cache-dir wandb ipdb gpustat visdom notebook mediapy torch_geometric natsort scikit-video easydict pandas moviepy imageio imageio-ffmpeg termcolor av open3d dm_control dill==0.3.5.1 hydra-core==1.2.0 einops==0.4.1 diffusers==0.11.1 zarr==2.12.0 numba==0.56.4 pygame==2.1.2 shapely==1.8.4 tensorboard==2.10.1 tensorboardx==2.5.1 absl-py==0.13.0 pyparsing==2.4.7 jupyterlab==3.0.14 scikit-image yapf==0.31.0 opencv-python==4.5.3.56 psutil av matplotlib setuptools==59.5.0
cd Improved-3D-Diffusion-Policy
pip install -e .
cd ..
# 安装timm和r3m
pip install timm==0.9.7
cd third_party/r3m && pip install -e . && cd ../..
使用
下载训练数据示例并解压,然后在scripts/train_policy.sh
中指定数据集路径。例如:
dataset_path=/home/ze/projects/Improved-3D-Diffusion-Policy/training_data_example
训练策略:
bash scripts/train_policy.sh idp3 gr1_dex-3d 0913_example
部署策略:
bash scripts/deploy_policy.sh idp3 gr1_dex-3d 0913_example
可视化训练数据:
bash scripts/vis_dataset.sh
资源
- 项目官网:https://humanoid-manipulation.github.io/
- GitHub 仓库:https://github.com/YanjieZe/Improved-3D-Diffusion-Policy
- arXiv 技术论文:https://arxiv.org/pdf/2410.10803
- Google Drive:https://drive.google.com/drive/folders/1f5Ln_d14OQ5eSjPDGnD7T4KQpacMhgCB?usp=sharing
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦