最近,来自宾夕法尼亚大学和NVIDIA的研究人员提出了一种名为DrEureka的新型算法,用于加速机器人技能的学习和迁移。该算法利用大型语言模型(LLM)来自动化和加速机器人技能的学习过程,特别是从模拟到现实世界的迁移。
DrEureka的核心思想是利用LLM来自动设计奖励函数和域随机化分布,以支持机器人技能的迁移。具体来说,DrEureka首先使用LLM来生成合适的奖励函数,然后使用这些奖励函数来训练机器人的模拟模型。接下来,DrEureka使用模拟模型来构建奖励感知的物理先验,以指导LLM生成有效的域随机化配置。最后,DrEureka使用这些域随机化配置来重新训练机器人的模拟模型,以使其更适合在现实世界中部署。
研究人员在多个机器人平台上进行了实验,包括四足机器人和灵巧机器人手。在四足机器人的实验中,DrEureka成功地生成了有效的奖励函数和域随机化配置,使得机器人在模拟中学习到的技能能够成功地迁移到现实世界中。在灵巧机器人手的实验中,DrEureka也取得了类似的成功,使得机器人能够成功地在模拟中学习到旋转立方体的技能,并成功地迁移到现实世界中。
然而,DrEureka也存在一些局限性。首先,由于LLM的训练数据有限,DrEureka可能无法处理一些复杂的机器人任务或环境。其次,DrEureka的域随机化配置可能需要进一步的优化和改进,以确保机器人在现实世界中的表现更加稳定和可靠。
论文地址:https://eureka-research.github.io/dr-eureka/assets/dreureka-paper.pdf