Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统

简介: Agent-E 是一个基于 AutoGen 代理框架构建的智能自动化系统,专注于浏览器内的自动化操作。它能够执行多种复杂任务,如填写表单、搜索和排序电商产品、定位网页内容等,从而提高在线效率,减少重复劳动。本文将详细介绍 Agent-E 的功能、技术原理以及如何运行该系统。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:Agent-E 能够执行多种浏览器内的自动化任务,如表单填写、电商搜索与排序、内容定位等。
  2. 技术原理:基于 AutoGen 代理框架,使用代理执行任务,并通过技能库和自然语言交互实现自动化。
  3. 运行方法:提供了详细的安装和配置指南,以及如何通过命令行运行 Agent-E。

正文(附运行示例)

Agent-E 是什么

公众号: 蚝油菜花 - Agent-E

Agent-E 是基于 AutoGen 代理框架构建的智能自动化系统,专注于浏览器内的自动化操作。它通过自然语言交互,能够执行多种复杂任务,如填写表单、搜索和排序电商产品、定位网页内容等。Agent-E 的目标是提高在线效率,减少重复劳动,让用户更专注于重要事务。

Agent-E 的核心在于其基于代理的架构,通过代理(如用户代理和浏览器导航代理)执行任务。系统围绕技能库构建,技能库包含一系列预定义的动作(技能),分为感知技能和行动技能。自然语言交互使得用户可以用自然语言与浏览器互动,让任务执行更加直观。

Agent-E 的主要功能

  • 表单填写:自动填写网络表单,包括个人信息输入。
  • 电商搜索与排序:在电商网站如亚马逊上根据销量或价格等标准搜索和排序产品。
  • 内容定位:在网站上查找特定内容,如体育比分或大学联系信息。
  • 媒体交互:与基于网络的媒体互动,包括播放 YouTube 视频和管理播放设置。
  • 网络搜索:执行全面的网络搜索,收集各种主题的信息。
  • 项目管理自动化:在项目管理平台如 JIRA 上过滤问题和自动化工作流程。

Agent-E 的技术原理

  • 基于代理的架构:基于 AutoGen 代理框架,用代理(如用户代理和浏览器导航代理)执行任务。
  • 技能库:核心功能围绕技能库构建,技能库包含一系列预定义的动作(技能),分为感知技能和行动技能。
  • 自然语言交互:支持用户用自然语言与浏览器互动,让任务执行更加直观。
  • DOM 蒸馏:基于 DOM 蒸馏技术,Agent-E 将 HTML DOM 简化为相关的 JSON 快照,专注于用户任务相关的元素。
  • 变化观察:执行动作后,Agent-E 监测状态变化,用语言反馈形式提供给 LLM,指导更准确的性能。
  • 层次化规划:采用层次化规划,将复杂任务分解为子任务,由不同级别的代理处理。

如何运行 Agent-E

快速开始

  1. 运行安装脚本
  • macOS/Linux
    ./install.sh
    
    如果需要安装 Playwright,可以使用 -p 标志:
    ./install.sh -p
    
  • Windows
    .\win_install.ps1
    
    如果需要安装 Playwright,可以使用 -p 标志:
    .\win_install.ps1 -p
    
  1. 配置环境变量
  • 编辑 .envagents_llm_config.json 文件,按照说明设置字段。
  1. 运行 Agent-E
    python -m ae.main
    
    macOS 用户
    python -u -m ae.main
    

手动设置

  1. 安装 uv
  • macOS/Linux
    curl -LsSf https://astral.sh/uv/install.sh | sh
    
  • Windows
    powershell -c "irm https://astral.sh/uv/install.ps1 | iex"
    
  1. 设置虚拟环境

    uv venv --python 3.11  # 3.10+ 也可以
    source .venv/bin/activate  # Windows: .venv\Scripts\activate
    
  2. 安装依赖

    uv pip compile pyproject.toml -o requirements.txt
    uv pip install -r requirements.txt
    
  3. 配置环境

    cp .env-example .env
    
  • 编辑 .env 文件,设置以下变量:
    • AUTOGEN_MODEL_NAME
    • AUTOGEN_MODEL_API_KEY
    • AUTOGEN_MODEL_BASE_URL(可选)
    • AUTOGEN_MODEL_API_TYPE(可选)
    • AUTOGEN_MODEL_API_VERSION(可选)
    • AUTOGEN_LLM_TEMPERATURE(可选)
    • AUTOGEN_LLM_TOP_P(可选)
    • BROWSER_STORAGE_DIR(可选)

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
9月前
|
Web App开发 人工智能 自然语言处理
Playwright MCP浏览器自动化指南
本文教你如何通过Playwright MCP让AI直接操作浏览器,自动运行和调试代码,无需手动切换界面。只需简单配置,即可用自然语言指挥AI完成页面操作、问题排查与自主修复,真正实现自动化高效开发。
|
8月前
|
人工智能 自然语言处理 安全
从工具到伙伴:AI代理(Agent)是下一场革命
从工具到伙伴:AI代理(Agent)是下一场革命
830 117
|
9月前
|
存储 人工智能 搜索推荐
一种专为AI代理设计的内存层,能够在交互过程中记忆、学习和进化
Mem0 是专为 AI 代理设计的内存层,支持记忆、学习与进化。提供多种记忆类型,可快速集成,适用于开源与托管场景,助力 AI 代理高效交互与成长。
823 123
一种专为AI代理设计的内存层,能够在交互过程中记忆、学习和进化
|
9月前
|
人工智能 自然语言处理 监控
Browser Use:打造你的浏览器自动化助手
你是否曾希望用简单的一句话就能让浏览器自动填表、抓数据或做测试?Browser Use 让这成为现实。它结合了语言模型的智能和传统自动化的稳定,能听懂自然语言指令,自己规划步骤,还能应对网页变动和错误。无论是开发者还是普通用户,都能用它高效完成日常操作,省时省力。安装简单,写行指令就能马上体验。
|
9月前
|
存储 人工智能 运维
AI 网关代理 RAG 检索:Dify 轻松对接外部知识库的新实践
Higress AI 网关通过提供关键桥梁作用,支持 Dify 应用便捷对接业界成熟的 RAG 引擎。通过 AI 网关将 Dify 的高效编排能力与专业 RAG 引擎的检索效能结合,企业可在保留现有 Dify 应用资产的同时,有效规避其内置 RAG 的局限,显著提升知识驱动型 AI 应用的生产环境表现。
3444 137
|
8月前
|
人工智能 自然语言处理 供应链
超越聊天:AI代理——下一代人机交互的雏形
超越聊天:AI代理——下一代人机交互的雏形
618 22
|
8月前
|
数据采集 人工智能 程序员
PHP 程序员如何为 AI 浏览器(如 ChatGPT Atlas)优化网站
OpenAI推出ChatGPT Atlas,标志AI浏览器新方向。虽未颠覆现有格局,但为开发者带来新机遇。PHP建站者需关注AI爬虫抓取特性,优化技术结构(如SSR、Schema标记)、提升内容可读性与语义清晰度,并考虑未来agent调用能力。通过robots.txt授权、结构化数据、内容集群与性能优化,提升网站在AI搜索中的可见性与引用机会,提前布局AI驱动的流量新格局。
440 8
|
8月前
|
数据采集 人工智能 自然语言处理
Playwright MCP 浏览器自动化框架全面解析
Playwright MCP是微软推出的开源项目,结合Playwright与MCP协议,让AI通过结构化数据直接操作浏览器。告别传统视觉识别,实现高效、精准的网页自动化,广泛应用于测试、爬虫、办公自动化等场景,大幅提升效率与可靠性。
|
9月前
|
人工智能 自然语言处理 监控
Playwright MCP浏览器自动化全攻略
Playwright MCP让AI通过自然语言操控浏览器,无需编程即可实现网页自动化。支持智能元素识别、多浏览器操作与动态交互,广泛应用于搜索、数据抓取、自动发布等场景,大幅提升效率,降低技术门槛,是浏览器自动化的新范式。
|
8月前
|
Web App开发 人工智能 JavaScript
入门指南:使用 Playwright MCP Server 为你的 AI Agent 赋予浏览器自动化能力
借助Playwright MCP Server,AI助手可实现网页自动操作:填表、抓数据、执行重复任务。通过MCP协议连接AI与浏览器,让AI从“能说”变为“会做”。支持主流浏览器,配置简单,助力打造智能数字助手。

热门文章

最新文章