iDP3:斯坦福大学联合多所高校推出的改进型3D视觉运动策略

本文涉及的产品
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,分割抠图1万点
简介: iDP3是由斯坦福大学联合多所高校推出的改进型3D视觉运动策略,旨在提升人形机器人在多样化环境中的自主操作能力。该策略基于自我中心的3D视觉表征,无需精确相机校准和点云分割,显著提高了机器人在未见过的环境中的实用性和灵活性。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 技术背景:iDP3基于自我中心的3D视觉表征,摒弃了对精确相机校准和点云分割的需求。
  2. 主要功能:iDP3在视图变化、新对象识别和新场景适应方面展现出卓越的泛化能力。
  3. 应用场景:iDP3可应用于家庭自动化、工业自动化、医疗辅助、搜索与救援及教育与培训等多个领域。

正文(附运行示例)

iDP3 是什么

公众号: 蚝油菜花 - Improved-3D-Diffusion-Policy

iDP3(Improved 3D Diffusion Policy)是斯坦福大学联合多所高校推出的改进型3D视觉运动策略,旨在提升人形机器人在多样化环境中的自主操作能力。与传统3D策略不同,iDP3基于自我中心的3D视觉表征,摒弃了对精确相机校准和点云分割的需求,使机器人能够在真实世界中灵活执行任务。

iDP3在视图变化、新对象识别和新场景适应方面展现出卓越的泛化能力,显著提高了人形机器人在未见过的环境中的实用性和灵活性。

iDP3 的主要功能

  • 自我中心3D视觉表征:直接在相机帧中处理3D数据,消除对相机校准和点云分割的需求。
  • 视图泛化:在视图发生大的变化时仍然准确地抓取物体,不受训练时特定视角的限制。
  • 对象泛化:能处理在训练中未见过的物体,不依赖于特定对象的特征。
  • 场景泛化:在未见过的环境中执行任务,即使这些环境在复杂性和噪声水平上与训练环境有所不同。
  • 高效率:在训练和部署时表现出高效率,减少对大量数据集的依赖,快速适应新环境。

iDP3 的技术原理

  • 3D视觉输入:基于从LiDAR相机获取的3D点云数据,提供机器人周围环境的详细空间信息。
  • 自我中心视角:直接使用相机帧中的3D表示,不同于传统的3D策略。
  • 扩大视觉输入:通过增加采样点的数量捕捉整个场景,提高对场景的全面理解。
  • 改进的视觉编码器:用金字塔卷积编码器替代传统的多层感知器(MLP)视觉编码器,提高从人类示范中学习时的平滑性和准确性。
  • 更长的预测视野:为应对人类专家的抖动和传感器噪声,基于延长预测视野提高学习效果。
  • 优化和推理:在训练时使用AdamW优化器,用DDIM(Denoising Diffusion Implicit Models)进行扩散过程的优化和推理。

如何运行 iDP3

安装

首先,安装conda环境和相关包:

conda remove -n idp3 --all
conda create -n idp3 python=3.8
conda activate idp3

# 安装torch
pip3 install torch==2.1.0 torchvision --index-url https://download.pytorch.org/whl/cu121

# 安装其他依赖
pip install kaleido plotly open3d tyro termcolor h5py
cd third_party/visualizer && pip install -e . && cd ../..
pip install --no-cache-dir wandb ipdb gpustat visdom notebook mediapy torch_geometric natsort scikit-video easydict pandas moviepy imageio imageio-ffmpeg termcolor av open3d dm_control dill==0.3.5.1 hydra-core==1.2.0 einops==0.4.1 diffusers==0.11.1 zarr==2.12.0 numba==0.56.4 pygame==2.1.2 shapely==1.8.4 tensorboard==2.10.1 tensorboardx==2.5.1 absl-py==0.13.0 pyparsing==2.4.7 jupyterlab==3.0.14 scikit-image yapf==0.31.0 opencv-python==4.5.3.56 psutil av matplotlib setuptools==59.5.0

cd Improved-3D-Diffusion-Policy
pip install -e .
cd ..

# 安装timm和r3m
pip install timm==0.9.7
cd third_party/r3m && pip install -e . && cd ../..

使用

下载训练数据示例并解压,然后在scripts/train_policy.sh中指定数据集路径。例如:

dataset_path=/home/ze/projects/Improved-3D-Diffusion-Policy/training_data_example

训练策略:

bash scripts/train_policy.sh idp3 gr1_dex-3d 0913_example

部署策略:

bash scripts/deploy_policy.sh idp3 gr1_dex-3d 0913_example

可视化训练数据:

bash scripts/vis_dataset.sh

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
1月前
|
机器学习/深度学习 人工智能 达摩院
MVGenMaster:复旦联合阿里等实验室推出的多视图扩散模型
MVGenMaster是由复旦大学、阿里巴巴达摩院和湖潘实验室联合推出的多视图扩散模型,专注于新视角合成(NVS)任务。该模型通过整合3D先验信息,显著提升了NVS的泛化和3D一致性,并能从单一图像生成多达100个新视图。此外,研究团队还推出了包含160万场景的大型多视图图像数据集MvD-1M,以支持模型的训练和优化。
86 27
MVGenMaster:复旦联合阿里等实验室推出的多视图扩散模型
|
4月前
|
人工智能
防AI换脸视频诈骗,中电金信联合复旦提出多模态鉴伪法,还入选顶会ACM MM
【9月更文挑战第26天】中电金信与复旦大学合作,提出一种基于身份信息增强的多媒体伪造检测方法,并入选ACM MM国际会议。该方法利用身份信息作为检测线索,构建了含54位名人324个视频的多模态伪造数据集IDForge,设计了参考辅助的多模态伪造检测网络R-MFDN,显著提升了检测性能,准确率达到92.90%。尽管如此,该方法仍存在一定局限性,如对非英语国家数据及无明确身份信息的视频检测效果可能受限。
102 4
|
4月前
|
机器学习/深度学习 数据采集 人工智能
三模联盟,谷歌DeepMind缔造终身学习智能体!
【9月更文挑战第1天】在人工智能领域,谷歌DeepMind提出了一种名为Diffusion Augmented Agents(DAAG)的创新框架,结合了大型语言模型、视觉语言模型和扩散模型,旨在提升强化学习中具身智能体的样本效率和迁移学习能力。DAAG通过利用扩散模型对智能体的过去经验进行重标记,使其与目标指令保持一致,从而减少新任务所需奖励标记数据量,提高学习效率。然而,该方法仍面临计算资源需求高、输出质量受限于输入数据质量和多样性等挑战。实验结果显示,DAAG能显著提高智能体的学习效率和迁移学习能力。
62 3
|
6月前
|
存储 人工智能 语音技术
ACL 2024:引领学术视听研究,上海交大、清华大学、剑桥大学、上海AILAB联合发布学术视听数据集M3AV
【7月更文挑战第16天】在ACL 2024会议上,四校合作推出M3AV,一个涵盖367小时跨学科视频的多模态、多类型、多用途学术讲座数据集。包含语音、肢体语言、幻灯片内容,支持多任务学习,如内容识别、语音处理。高质量人工标注,尤其是命名实体,提供丰富分析机会。尽管规模大、处理复杂,且标注主观性影响可比性,M3AV仍为视听研究带来新挑战和机遇。[论文链接](https://arxiv.org/abs/2403.14168)
79 4
|
8月前
|
机器学习/深度学习 人工智能 算法
31万奖金池等你挑战!IJCAI 2024 第九届“信也科技杯”全球AI算法大赛正式开赛!聚焦AI尖端赛题!
31万奖金池等你挑战!IJCAI 2024 第九届“信也科技杯”全球AI算法大赛正式开赛!聚焦AI尖端赛题!
166 1
31万奖金池等你挑战!IJCAI 2024 第九届“信也科技杯”全球AI算法大赛正式开赛!聚焦AI尖端赛题!
|
8月前
|
机器学习/深度学习 人工智能 安全
DeepMind前成员推出Haiper:AI视频生成赛道再添新势力
【2月更文挑战第16天】DeepMind前成员推出Haiper:AI视频生成赛道再添新势力
371 2
DeepMind前成员推出Haiper:AI视频生成赛道再添新势力
|
人工智能 数据安全/隐私保护
「WAIC 2022 · 可信隐私计算高峰论坛」学术交流会,诚邀学术菁英分享展示技术干货
「WAIC 2022 · 可信隐私计算高峰论坛」学术交流会,诚邀学术菁英分享展示技术干货
108 0
|
人工智能 算法 云计算
“云上进化”2022全球AI生物智药大赛开启,30万奖金等你来!
云计算与AI技术的加持,极大推动了生物制药产业效率,AI辅助广谱抗体药的设计,目前可以说已经成为了业界公认的圣杯。基于此,由阿里云联合NVIDIA、角井科技主办本届“云上进化”2022全球AI生物智药大赛,旨在推动云计算、AI与生命科学领域的交融与发展,为全人类更好的生活和生命质量,迎难而上,迈出坚定步伐。
536 0
“云上进化”2022全球AI生物智药大赛开启,30万奖金等你来!
|
新零售 编解码 人工智能
上海交大牵手淘宝成立媒体计算实验室:推动视频超分等关键技术发展
7月27日,上海交通大学电子信息与电气工程学院与阿里巴巴集团大淘宝技术宣布达成战略合作,共同成立上海交通大学电子信息与电气工程学院-淘宝(中国)软件有限公司媒体计算联合实验室(下称”联合实验室”)。该联合实验室是为了更好地探索未来媒体时代的极致体验,通过创新和产业结合,推动行业发展。
289 0
上海交大牵手淘宝成立媒体计算实验室:推动视频超分等关键技术发展
|
机器学习/深度学习 传感器 人工智能
新网银行金融科技挑战赛 AI算法赛道 亚军方案
新网银行金融科技挑战赛 AI算法赛道 亚军方案
375 0
新网银行金融科技挑战赛 AI算法赛道 亚军方案

热门文章

最新文章