Optimus-1:哈工大联合鹏城实验室推出挑战开放世界中长期任务的智能体框架

本文涉及的产品
图像搜索,7款服务类型 1个月
简介: Optimus-1是由哈尔滨工业大学(深圳)和鹏城实验室联合推出的智能体框架,旨在解决开放世界环境中长期任务的挑战。该框架结合了结构化知识和多模态经验,通过混合多模态记忆模块、知识引导规划器和经验驱动反射器,显著提升了在Minecraft等环境中的长期任务性能。本文将详细介绍Optimus-1的主要功能、技术原理以及如何运行该框架。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 智能体框架:Optimus-1是哈工大和鹏城实验室联合推出的智能体框架,旨在解决开放世界中的长期任务挑战。
  2. 主要功能:包括知识引导规划、经验驱动反思、行动控制和混合多模态记忆等,显著提升在Minecraft等环境中的任务性能。
  3. 技术原理:结合分层有向知识图(HDKG)和抽象多模态经验池(AMEP),通过知识引导规划器和经验驱动反射器实现高效任务执行。

正文(附运行示例)

Optimus-1 是什么

公众号: 蚝油菜花 - Optimus-1

Optimus-1是由哈尔滨工业大学(深圳)和鹏城实验室联合推出的智能体框架,旨在解决开放世界环境中长期任务的挑战。该框架结合了结构化知识和多模态经验,通过混合多模态记忆模块、知识引导规划器和经验驱动反射器,显著提升了在Minecraft等环境中的长期任务性能。

Optimus-1的核心在于其混合多模态记忆模块,由分层有向知识图(HDKG)和抽象多模态经验池(AMEP)组成。HDKG将世界知识转化为图结构,为智能体提供完成任务所需的知识;AMEP则动态总结和存储任务执行过程中的多模态信息,为反思提供参考。

Optimus-1 的主要功能

  • 知识引导规划(Knowledge-Guided Planner):基于结构化知识(HDKG)生成可执行的子目标序列,规划和执行长期任务。
  • 经验驱动反思(Experience-Driven Reflector):基于历史经验(AMEP)评估当前任务状态,在必要时调整行动计划。
  • 行动控制(Action Controller):执行由规划器产生的子目标,与环境互动以完成任务。
  • 混合多模态记忆(Hybrid Multimodal Memory):结合HDKG和AMEP,存储和利用世界知识和历史经验,支持复杂决策和适应性学习。
  • 自我进化(Self-Evolution):基于“自由探索-教师指导”方法,无需参数更新能逐步提升记忆容量和任务执行能力。

Optimus-1 的技术原理

  • 分层有向知识图(HDKG):将世界知识转化为图结构,节点代表对象,边代表对象间的关系,基于图检索和拓扑排序,为智能体提供完成任务所需的知识。
  • 抽象多模态经验池(AMEP):动态总结和存储任务执行过程中的多模态信息,用MineCLIP模型计算视觉和子目标的相似性,存储相关性强的视觉记忆,为反思提供参考。
  • 知识引导规划器:结合视觉观察和HDKG中的知识,生成合理的子目标序列,指导行动控制器的行动。
  • 经验驱动反思器:定期激活,从AMEP中检索与当前子目标相关的多模态经验,评估当前任务状态,决定是继续执行、完成还是需要重新规划。
  • 行动控制器:根据子目标和当前观察,生成与环境互动所需的低级行动,如鼠标和键盘操作。

如何运行 Optimus-1

在运行Optimus-1之前,请确保已安装必要的依赖项。以下是运行Optimus-1的步骤:

  1. 安装依赖项

    curl -LsSf https://astral.sh/uv/install.sh | sh
    git clone https://github.com/JiuTian-VL/Optimus-1.git
    cd Optimus-1
    uv sync
    source .venv/bin/activate
    uv pip install -r requirements.txt
    sudo apt install clang
    sudo apt-get install openjdk-8-jdk
    sudo apt-get install xvfb
    uv pip install setuptools==65.5.1 wheel==0.38.0 x_transformers==0.27.1 dm-tree
    cd minerl
    uv pip install -r requirements.txt
    uv pip install -e .
    cd ..
    mv MCP-Reborn.tar.gz minerl/minerl
    cd minerl/minerl
    rm -rf MCP-Reborn
    tar -xzvf MCP-Reborn.tar.gz
    cd MCP-Reborn
    ./gradlew clean build shadowJar
    unzip optimus1_steve1_ckpt.zip
    
  2. 运行Optimus-1

    bash scripts/server.sh
    bash scripts/test_minerl.sh
    bash scripts/diamond.sh
    

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
10天前
|
人工智能 API 语音技术
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
TEN Agent 是一个开源的实时多模态 AI 代理框架,集成了 OpenAI Realtime API 和 RTC 技术,支持语音、文本和图像的多模态交互,具备实时通信、模块化设计和多语言支持等功能,适用于智能客服、实时语音助手等多种场景。
93 15
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
|
11天前
|
人工智能 自然语言处理 前端开发
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
Director 是一个构建视频智能体的 AI 框架,用户可以通过自然语言命令执行复杂的视频任务,如搜索、编辑、合成和生成视频内容。该框架基于 VideoDB 的“视频即数据”基础设施,集成了多个预构建的视频代理和 AI API,支持高度定制化,适用于开发者和创作者。
74 9
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
|
19天前
|
人工智能 自然语言处理 JavaScript
Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统
Agent-E 是一个基于 AutoGen 代理框架构建的智能自动化系统,专注于浏览器内的自动化操作。它能够执行多种复杂任务,如填写表单、搜索和排序电商产品、定位网页内容等,从而提高在线效率,减少重复劳动。本文将详细介绍 Agent-E 的功能、技术原理以及如何运行该系统。
66 5
Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统
|
1月前
|
敏捷开发 机器学习/深度学习 数据采集
端到端优化所有能力,字节跳动提出强化学习LLM Agent框架AGILE
【10月更文挑战第23天】字节跳动研究团队提出AGILE框架,通过强化学习优化大型语言模型(LLM)在复杂对话任务中的表现。该框架将LLM作为核心决策模块,结合记忆、工具和专家咨询模块,实现智能体的自我进化。实验结果显示,AGILE智能体在ProductQA和MedMCQA数据集上优于GPT-4。
131 4
|
2月前
|
人工智能 API 决策智能
swarm Agent框架入门指南:构建与编排多智能体系统的利器 | AI应用开发
Swarm是OpenAI在2024年10月12日宣布开源的一个实验性质的多智能体编排框架。其核心目标是让智能体之间的协调和执行变得更轻量级、更容易控制和测试。Swarm框架的主要特性包括轻量化、易于使用和高度可定制性,非常适合处理大量独立的功能和指令。【10月更文挑战第15天】
355 6
|
2月前
|
数据采集 人工智能 自然语言处理
AI Agent 金融助理0-1 Tutorial 利用Python实时查询股票API的FinanceAgent框架构建股票(美股/A股/港股) AI Finance Agent
金融领域Finance AI Agents方面的工作,发现很多行业需求和用户输入的 query都是和查询股价/行情/指数/财报汇总/金融理财建议相关。如果需要准确的 金融实时数据就不能只依赖LLM 来生成了。常规的方案包括 RAG (包括调用API )再把对应数据和prompt 一起拼接送给大模型来做文本生成。稳定的一些商业机构的金融数据API基本都是收费的,如果是以科研和demo性质有一些开放爬虫API可以使用。这里主要介绍一下 FinanceAgent,github地址 https://github.com/AI-Hub-Admin/FinanceAgent
|
2月前
|
人工智能 JSON 自然语言处理
开源模型+Orchestrating Agents多智能体框架,易用、强大且可控
本文采用开源Qwen2.5-14B-instruct-GGUF来体验多智能体编排和交接,希望在体验多智能体编排和交接框架的同时,一起评估中小参数规模的模型(14B)能否较好的完成多智能体任务。
|
3月前
|
人工智能 安全 量子技术
大疆DJI无人机等你来拿,蚂蚁集团agentUniverse 多智能体框架有奖征文
agentUniverse有奖征文活动来啦!分享agentUniverse的实践经验、亦或是剖析市面上各路智能体技术理念、对比开源框架的洞见,都有机会获得大疆无人机!
大疆DJI无人机等你来拿,蚂蚁集团agentUniverse 多智能体框架有奖征文
|
3月前
|
自然语言处理 决策智能 Python
同时操控手机和电脑,100项任务,跨系统智能体评测基准有了
【9月更文挑战第9天】近年来,随着人工智能技术的进步,自主智能体的应用日益广泛。为解决现有评测基准的局限性,研究人员推出了CRAB(Cross-environment Agent Benchmark),这是一种支持跨环境任务的新框架,结合了基于图的精细评估方法和高效的任务构建机制。CRAB框架支持多种设备并可轻松扩展至任何具备Python接口的环境。首个跨平台基准CRAB-v0包含100项任务,实验显示GPT-4单智能体在完成率方面表现最佳。CRAB框架为智能体研究提供了新机遇,但也面临计算资源和评估准确性等方面的挑战。
76 9
|
3月前
|
弹性计算 自然语言处理 API
如何速成RAG+Agent框架大模型应用搭建
本文侧重于能力总结和实操搭建部分,从大模型应用的多个原子能力实现出发,到最终串联搭建一个RAG+Agent架构的大模型应用。

热门文章

最新文章