Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统

本文涉及的产品
图像搜索,7款服务类型 1个月
简介: Agent-E 是一个基于 AutoGen 代理框架构建的智能自动化系统,专注于浏览器内的自动化操作。它能够执行多种复杂任务,如填写表单、搜索和排序电商产品、定位网页内容等,从而提高在线效率,减少重复劳动。本文将详细介绍 Agent-E 的功能、技术原理以及如何运行该系统。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:Agent-E 能够执行多种浏览器内的自动化任务,如表单填写、电商搜索与排序、内容定位等。
  2. 技术原理:基于 AutoGen 代理框架,使用代理执行任务,并通过技能库和自然语言交互实现自动化。
  3. 运行方法:提供了详细的安装和配置指南,以及如何通过命令行运行 Agent-E。

正文(附运行示例)

Agent-E 是什么

公众号: 蚝油菜花 - Agent-E

Agent-E 是基于 AutoGen 代理框架构建的智能自动化系统,专注于浏览器内的自动化操作。它通过自然语言交互,能够执行多种复杂任务,如填写表单、搜索和排序电商产品、定位网页内容等。Agent-E 的目标是提高在线效率,减少重复劳动,让用户更专注于重要事务。

Agent-E 的核心在于其基于代理的架构,通过代理(如用户代理和浏览器导航代理)执行任务。系统围绕技能库构建,技能库包含一系列预定义的动作(技能),分为感知技能和行动技能。自然语言交互使得用户可以用自然语言与浏览器互动,让任务执行更加直观。

Agent-E 的主要功能

  • 表单填写:自动填写网络表单,包括个人信息输入。
  • 电商搜索与排序:在电商网站如亚马逊上根据销量或价格等标准搜索和排序产品。
  • 内容定位:在网站上查找特定内容,如体育比分或大学联系信息。
  • 媒体交互:与基于网络的媒体互动,包括播放 YouTube 视频和管理播放设置。
  • 网络搜索:执行全面的网络搜索,收集各种主题的信息。
  • 项目管理自动化:在项目管理平台如 JIRA 上过滤问题和自动化工作流程。

Agent-E 的技术原理

  • 基于代理的架构:基于 AutoGen 代理框架,用代理(如用户代理和浏览器导航代理)执行任务。
  • 技能库:核心功能围绕技能库构建,技能库包含一系列预定义的动作(技能),分为感知技能和行动技能。
  • 自然语言交互:支持用户用自然语言与浏览器互动,让任务执行更加直观。
  • DOM 蒸馏:基于 DOM 蒸馏技术,Agent-E 将 HTML DOM 简化为相关的 JSON 快照,专注于用户任务相关的元素。
  • 变化观察:执行动作后,Agent-E 监测状态变化,用语言反馈形式提供给 LLM,指导更准确的性能。
  • 层次化规划:采用层次化规划,将复杂任务分解为子任务,由不同级别的代理处理。

如何运行 Agent-E

快速开始

  1. 运行安装脚本
  • macOS/Linux
    ./install.sh
    
    如果需要安装 Playwright,可以使用 -p 标志:
    ./install.sh -p
    
  • Windows
    .\win_install.ps1
    
    如果需要安装 Playwright,可以使用 -p 标志:
    .\win_install.ps1 -p
    
  1. 配置环境变量
  • 编辑 .envagents_llm_config.json 文件,按照说明设置字段。
  1. 运行 Agent-E
    python -m ae.main
    
    macOS 用户
    python -u -m ae.main
    

手动设置

  1. 安装 uv
  • macOS/Linux
    curl -LsSf https://astral.sh/uv/install.sh | sh
    
  • Windows
    powershell -c "irm https://astral.sh/uv/install.ps1 | iex"
    
  1. 设置虚拟环境

    uv venv --python 3.11  # 3.10+ 也可以
    source .venv/bin/activate  # Windows: .venv\Scripts\activate
    
  2. 安装依赖

    uv pip compile pyproject.toml -o requirements.txt
    uv pip install -r requirements.txt
    
  3. 配置环境

    cp .env-example .env
    
  • 编辑 .env 文件,设置以下变量:
    • AUTOGEN_MODEL_NAME
    • AUTOGEN_MODEL_API_KEY
    • AUTOGEN_MODEL_BASE_URL(可选)
    • AUTOGEN_MODEL_API_TYPE(可选)
    • AUTOGEN_MODEL_API_VERSION(可选)
    • AUTOGEN_LLM_TEMPERATURE(可选)
    • AUTOGEN_LLM_TOP_P(可选)
    • BROWSER_STORAGE_DIR(可选)

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
5天前
|
人工智能 开发框架 自然语言处理
Eko:一句话就能快速构建复杂工作流的 AI 代理开发框架!快速实现自动操作电脑和浏览器完成任务
Eko 是 Fellou AI 推出的开源 AI 代理开发框架,支持自然语言驱动,帮助开发者快速构建从简单指令到复杂工作流的智能代理。
97 12
Eko:一句话就能快速构建复杂工作流的 AI 代理开发框架!快速实现自动操作电脑和浏览器完成任务
|
12天前
|
人工智能 运维 Prometheus
AIOpsLab:云服务自动化运维 AI,微软开源云服务 AI 框架,覆盖整个生命周期
AIOpsLab 是微软等机构推出的开源框架,支持云服务自动化运维,涵盖故障检测、根本原因分析等完整生命周期。
89 13
AIOpsLab:云服务自动化运维 AI,微软开源云服务 AI 框架,覆盖整个生命周期
|
17天前
|
人工智能
LangGraph:构建多代理动态工作流的开源框架,支持人工干预、循环、持久性等复杂工作流自动化
LangGraph 是一个基于图结构的开源框架,专为构建状态化、多代理系统设计,支持循环、持久性和人工干预,适用于复杂的工作流自动化。
54 12
LangGraph:构建多代理动态工作流的开源框架,支持人工干预、循环、持久性等复杂工作流自动化
|
18天前
|
人工智能 编解码 自然语言处理
AGUVIS:指导模型实现 GUI 自动化训练框架,结合视觉-语言模型进行训练,实现跨平台自主 GUI 交互
AGUVIS 是香港大学与 Salesforce 联合推出的纯视觉 GUI 自动化框架,能够在多种平台上实现自主 GUI 交互,结合显式规划和推理,提升复杂数字环境中的导航和交互能力。
63 8
AGUVIS:指导模型实现 GUI 自动化训练框架,结合视觉-语言模型进行训练,实现跨平台自主 GUI 交互
|
28天前
|
人工智能 Linux API
PromptWizard:微软开源 AI 提示词自动化优化框架,能够迭代优化提示指令和上下文示例,提升 LLMs 特定任务的表现
PromptWizard 是微软开源的 AI 提示词自动化优化框架,通过自我演变和自我适应机制,迭代优化提示指令和上下文示例,提升大型语言模型(LLMs)在特定任务中的表现。本文详细介绍了 PromptWizard 的主要功能、技术原理以及如何运行该框架。
151 8
PromptWizard:微软开源 AI 提示词自动化优化框架,能够迭代优化提示指令和上下文示例,提升 LLMs 特定任务的表现
|
16天前
|
存储 测试技术 API
pytest接口自动化测试框架搭建
通过上述步骤,我们成功搭建了一个基于 `pytest`的接口自动化测试框架。这个框架具备良好的扩展性和可维护性,能够高效地管理和执行API测试。通过封装HTTP请求逻辑、使用 `conftest.py`定义共享资源和前置条件,并利用 `pytest.ini`进行配置管理,可以大幅提高测试的自动化程度和执行效率。希望本文能为您的测试工作提供实用的指导和帮助。
76 15
|
24天前
|
数据采集 人工智能 自然语言处理
Midscene.js:AI 驱动的 UI 自动化测试框架,支持自然语言交互,生成可视化报告
Midscene.js 是一款基于 AI 技术的 UI 自动化测试框架,通过自然语言交互简化测试流程,支持动作执行、数据查询和页面断言,提供可视化报告,适用于多种应用场景。
214 1
Midscene.js:AI 驱动的 UI 自动化测试框架,支持自然语言交互,生成可视化报告
|
1月前
|
人工智能 API 语音技术
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
TEN Agent 是一个开源的实时多模态 AI 代理框架,集成了 OpenAI Realtime API 和 RTC 技术,支持语音、文本和图像的多模态交互,具备实时通信、模块化设计和多语言支持等功能,适用于智能客服、实时语音助手等多种场景。
176 15
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
|
1月前
|
人工智能 自然语言处理 前端开发
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
Director 是一个构建视频智能体的 AI 框架,用户可以通过自然语言命令执行复杂的视频任务,如搜索、编辑、合成和生成视频内容。该框架基于 VideoDB 的“视频即数据”基础设施,集成了多个预构建的视频代理和 AI API,支持高度定制化,适用于开发者和创作者。
102 9
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
|
16天前
|
Web App开发 数据采集 JavaScript
Chrome浏览器实例的TypeScript自动化脚本
Chrome浏览器实例的TypeScript自动化脚本

热门文章

最新文章