iDP3:斯坦福大学联合多所高校推出的改进型3D视觉运动策略

本文涉及的产品
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,分割抠图1万点
简介: iDP3是由斯坦福大学联合多所高校推出的改进型3D视觉运动策略,旨在提升人形机器人在多样化环境中的自主操作能力。该策略基于自我中心的3D视觉表征,无需精确相机校准和点云分割,显著提高了机器人在未见过的环境中的实用性和灵活性。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 技术背景:iDP3基于自我中心的3D视觉表征,摒弃了对精确相机校准和点云分割的需求。
  2. 主要功能:iDP3在视图变化、新对象识别和新场景适应方面展现出卓越的泛化能力。
  3. 应用场景:iDP3可应用于家庭自动化、工业自动化、医疗辅助、搜索与救援及教育与培训等多个领域。

正文(附运行示例)

iDP3 是什么

公众号: 蚝油菜花 - Improved-3D-Diffusion-Policy

iDP3(Improved 3D Diffusion Policy)是斯坦福大学联合多所高校推出的改进型3D视觉运动策略,旨在提升人形机器人在多样化环境中的自主操作能力。与传统3D策略不同,iDP3基于自我中心的3D视觉表征,摒弃了对精确相机校准和点云分割的需求,使机器人能够在真实世界中灵活执行任务。

iDP3在视图变化、新对象识别和新场景适应方面展现出卓越的泛化能力,显著提高了人形机器人在未见过的环境中的实用性和灵活性。

iDP3 的主要功能

  • 自我中心3D视觉表征:直接在相机帧中处理3D数据,消除对相机校准和点云分割的需求。
  • 视图泛化:在视图发生大的变化时仍然准确地抓取物体,不受训练时特定视角的限制。
  • 对象泛化:能处理在训练中未见过的物体,不依赖于特定对象的特征。
  • 场景泛化:在未见过的环境中执行任务,即使这些环境在复杂性和噪声水平上与训练环境有所不同。
  • 高效率:在训练和部署时表现出高效率,减少对大量数据集的依赖,快速适应新环境。

iDP3 的技术原理

  • 3D视觉输入:基于从LiDAR相机获取的3D点云数据,提供机器人周围环境的详细空间信息。
  • 自我中心视角:直接使用相机帧中的3D表示,不同于传统的3D策略。
  • 扩大视觉输入:通过增加采样点的数量捕捉整个场景,提高对场景的全面理解。
  • 改进的视觉编码器:用金字塔卷积编码器替代传统的多层感知器(MLP)视觉编码器,提高从人类示范中学习时的平滑性和准确性。
  • 更长的预测视野:为应对人类专家的抖动和传感器噪声,基于延长预测视野提高学习效果。
  • 优化和推理:在训练时使用AdamW优化器,用DDIM(Denoising Diffusion Implicit Models)进行扩散过程的优化和推理。

如何运行 iDP3

安装

首先,安装conda环境和相关包:

conda remove -n idp3 --all
conda create -n idp3 python=3.8
conda activate idp3

# 安装torch
pip3 install torch==2.1.0 torchvision --index-url https://download.pytorch.org/whl/cu121

# 安装其他依赖
pip install kaleido plotly open3d tyro termcolor h5py
cd third_party/visualizer && pip install -e . && cd ../..
pip install --no-cache-dir wandb ipdb gpustat visdom notebook mediapy torch_geometric natsort scikit-video easydict pandas moviepy imageio imageio-ffmpeg termcolor av open3d dm_control dill==0.3.5.1 hydra-core==1.2.0 einops==0.4.1 diffusers==0.11.1 zarr==2.12.0 numba==0.56.4 pygame==2.1.2 shapely==1.8.4 tensorboard==2.10.1 tensorboardx==2.5.1 absl-py==0.13.0 pyparsing==2.4.7 jupyterlab==3.0.14 scikit-image yapf==0.31.0 opencv-python==4.5.3.56 psutil av matplotlib setuptools==59.5.0

cd Improved-3D-Diffusion-Policy
pip install -e .
cd ..

# 安装timm和r3m
pip install timm==0.9.7
cd third_party/r3m && pip install -e . && cd ../..

使用

下载训练数据示例并解压,然后在scripts/train_policy.sh中指定数据集路径。例如:

dataset_path=/home/ze/projects/Improved-3D-Diffusion-Policy/training_data_example

训练策略:

bash scripts/train_policy.sh idp3 gr1_dex-3d 0913_example

部署策略:

bash scripts/deploy_policy.sh idp3 gr1_dex-3d 0913_example

可视化训练数据:

bash scripts/vis_dataset.sh

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
1月前
|
存储 人工智能
Optimus-1:哈工大联合鹏城实验室推出挑战开放世界中长期任务的智能体框架
Optimus-1是由哈尔滨工业大学(深圳)和鹏城实验室联合推出的智能体框架,旨在解决开放世界环境中长期任务的挑战。该框架结合了结构化知识和多模态经验,通过混合多模态记忆模块、知识引导规划器和经验驱动反射器,显著提升了在Minecraft等环境中的长期任务性能。本文将详细介绍Optimus-1的主要功能、技术原理以及如何运行该框架。
61 7
Optimus-1:哈工大联合鹏城实验室推出挑战开放世界中长期任务的智能体框架
|
4月前
|
人工智能
防AI换脸视频诈骗,中电金信联合复旦提出多模态鉴伪法,还入选顶会ACM MM
【9月更文挑战第26天】中电金信与复旦大学合作,提出一种基于身份信息增强的多媒体伪造检测方法,并入选ACM MM国际会议。该方法利用身份信息作为检测线索,构建了含54位名人324个视频的多模态伪造数据集IDForge,设计了参考辅助的多模态伪造检测网络R-MFDN,显著提升了检测性能,准确率达到92.90%。尽管如此,该方法仍存在一定局限性,如对非英语国家数据及无明确身份信息的视频检测效果可能受限。
111 4
|
4月前
|
机器学习/深度学习 数据采集 人工智能
三模联盟,谷歌DeepMind缔造终身学习智能体!
【9月更文挑战第1天】在人工智能领域,谷歌DeepMind提出了一种名为Diffusion Augmented Agents(DAAG)的创新框架,结合了大型语言模型、视觉语言模型和扩散模型,旨在提升强化学习中具身智能体的样本效率和迁移学习能力。DAAG通过利用扩散模型对智能体的过去经验进行重标记,使其与目标指令保持一致,从而减少新任务所需奖励标记数据量,提高学习效率。然而,该方法仍面临计算资源需求高、输出质量受限于输入数据质量和多样性等挑战。实验结果显示,DAAG能显著提高智能体的学习效率和迁移学习能力。
65 3
|
8月前
|
机器学习/深度学习 人工智能 算法
31万奖金池等你挑战!IJCAI 2024 第九届“信也科技杯”全球AI算法大赛正式开赛!聚焦AI尖端赛题!
31万奖金池等你挑战!IJCAI 2024 第九届“信也科技杯”全球AI算法大赛正式开赛!聚焦AI尖端赛题!
175 1
31万奖金池等你挑战!IJCAI 2024 第九届“信也科技杯”全球AI算法大赛正式开赛!聚焦AI尖端赛题!
|
8月前
|
人工智能
瓴羊One·客服与AI大模型技术联合打造智能服务新体验
瓴羊One·客服与AI大模型技术联合打造智能服务新体验
223 0
|
人工智能 数据安全/隐私保护
「WAIC 2022 · 可信隐私计算高峰论坛」学术交流会,诚邀学术菁英分享展示技术干货
「WAIC 2022 · 可信隐私计算高峰论坛」学术交流会,诚邀学术菁英分享展示技术干货
108 0
|
人工智能 算法 云计算
“云上进化”2022全球AI生物智药大赛开启,30万奖金等你来!
云计算与AI技术的加持,极大推动了生物制药产业效率,AI辅助广谱抗体药的设计,目前可以说已经成为了业界公认的圣杯。基于此,由阿里云联合NVIDIA、角井科技主办本届“云上进化”2022全球AI生物智药大赛,旨在推动云计算、AI与生命科学领域的交融与发展,为全人类更好的生活和生命质量,迎难而上,迈出坚定步伐。
541 0
“云上进化”2022全球AI生物智药大赛开启,30万奖金等你来!
|
机器学习/深度学习 传感器 人工智能
新网银行金融科技挑战赛 AI算法赛道 亚军方案
新网银行金融科技挑战赛 AI算法赛道 亚军方案
378 0
新网银行金融科技挑战赛 AI算法赛道 亚军方案
|
机器学习/深度学习 人工智能 自然语言处理
出门问问携手中科院自动化研究所,共建语音智能与人机交互联合实验室
2012 年 10 月,是一家在语音识别、语义分析、垂直探索等技术领域具备自主研发能力的人工智能公司。根据此前路透社报道,于 2015 年 11 月出门问问完成 C 轮融资后的累计融资金额达 7500 万美元,投资方包括 Google 、红杉资本、真格基金、SIG 海纳亚洲、圆美光电、及歌尔声学。
209 0
出门问问携手中科院自动化研究所,共建语音智能与人机交互联合实验室
|
机器学习/深度学习 人工智能 自然语言处理
顶级语音专家、MSR首席研究员俞栋:语音识别的四大前沿研究
9 月中旬,微软报告了在语音识别方面取得的新里程碑:新系统的识别词错率降至 6.3%;一个月后,微软又公布了在这一领域成功实现了历史性突破:他们的语音识别系统实现了和专业转录员相当甚至更低的词错率(WER),达到了 5.9%!机器之心在此期间曾对微软首席语音科学家黄学东进行了专访,探讨了这一连串突破性背后的技术和语音识别领域未来的可能性。近日,机器之心又对微软研究院首席研究员俞栋进行了一次独家专访,谈论了深度学习与语音识别相辅相成的发展以及相关领域的现状和未来。
1198 0

热门文章

最新文章