Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统

本文涉及的产品
图像搜索,7款服务类型 1个月
简介: Agent-E 是一个基于 AutoGen 代理框架构建的智能自动化系统,专注于浏览器内的自动化操作。它能够执行多种复杂任务,如填写表单、搜索和排序电商产品、定位网页内容等,从而提高在线效率,减少重复劳动。本文将详细介绍 Agent-E 的功能、技术原理以及如何运行该系统。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:Agent-E 能够执行多种浏览器内的自动化任务,如表单填写、电商搜索与排序、内容定位等。
  2. 技术原理:基于 AutoGen 代理框架,使用代理执行任务,并通过技能库和自然语言交互实现自动化。
  3. 运行方法:提供了详细的安装和配置指南,以及如何通过命令行运行 Agent-E。

正文(附运行示例)

Agent-E 是什么

公众号: 蚝油菜花 - Agent-E

Agent-E 是基于 AutoGen 代理框架构建的智能自动化系统,专注于浏览器内的自动化操作。它通过自然语言交互,能够执行多种复杂任务,如填写表单、搜索和排序电商产品、定位网页内容等。Agent-E 的目标是提高在线效率,减少重复劳动,让用户更专注于重要事务。

Agent-E 的核心在于其基于代理的架构,通过代理(如用户代理和浏览器导航代理)执行任务。系统围绕技能库构建,技能库包含一系列预定义的动作(技能),分为感知技能和行动技能。自然语言交互使得用户可以用自然语言与浏览器互动,让任务执行更加直观。

Agent-E 的主要功能

  • 表单填写:自动填写网络表单,包括个人信息输入。
  • 电商搜索与排序:在电商网站如亚马逊上根据销量或价格等标准搜索和排序产品。
  • 内容定位:在网站上查找特定内容,如体育比分或大学联系信息。
  • 媒体交互:与基于网络的媒体互动,包括播放 YouTube 视频和管理播放设置。
  • 网络搜索:执行全面的网络搜索,收集各种主题的信息。
  • 项目管理自动化:在项目管理平台如 JIRA 上过滤问题和自动化工作流程。

Agent-E 的技术原理

  • 基于代理的架构:基于 AutoGen 代理框架,用代理(如用户代理和浏览器导航代理)执行任务。
  • 技能库:核心功能围绕技能库构建,技能库包含一系列预定义的动作(技能),分为感知技能和行动技能。
  • 自然语言交互:支持用户用自然语言与浏览器互动,让任务执行更加直观。
  • DOM 蒸馏:基于 DOM 蒸馏技术,Agent-E 将 HTML DOM 简化为相关的 JSON 快照,专注于用户任务相关的元素。
  • 变化观察:执行动作后,Agent-E 监测状态变化,用语言反馈形式提供给 LLM,指导更准确的性能。
  • 层次化规划:采用层次化规划,将复杂任务分解为子任务,由不同级别的代理处理。

如何运行 Agent-E

快速开始

  1. 运行安装脚本
  • macOS/Linux
    ./install.sh
    
    如果需要安装 Playwright,可以使用 -p 标志:
    ./install.sh -p
    
  • Windows
    .\win_install.ps1
    
    如果需要安装 Playwright,可以使用 -p 标志:
    .\win_install.ps1 -p
    
  1. 配置环境变量
  • 编辑 .envagents_llm_config.json 文件,按照说明设置字段。
  1. 运行 Agent-E
    python -m ae.main
    
    macOS 用户
    python -u -m ae.main
    

手动设置

  1. 安装 uv
  • macOS/Linux
    curl -LsSf https://astral.sh/uv/install.sh | sh
    
  • Windows
    powershell -c "irm https://astral.sh/uv/install.ps1 | iex"
    
  1. 设置虚拟环境

    uv venv --python 3.11  # 3.10+ 也可以
    source .venv/bin/activate  # Windows: .venv\Scripts\activate
    
  2. 安装依赖

    uv pip compile pyproject.toml -o requirements.txt
    uv pip install -r requirements.txt
    
  3. 配置环境

    cp .env-example .env
    
  • 编辑 .env 文件,设置以下变量:
    • AUTOGEN_MODEL_NAME
    • AUTOGEN_MODEL_API_KEY
    • AUTOGEN_MODEL_BASE_URL(可选)
    • AUTOGEN_MODEL_API_TYPE(可选)
    • AUTOGEN_MODEL_API_VERSION(可选)
    • AUTOGEN_LLM_TEMPERATURE(可选)
    • AUTOGEN_LLM_TOP_P(可选)
    • BROWSER_STORAGE_DIR(可选)

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
3天前
|
人工智能 自然语言处理 搜索推荐
PhotoDoodle:设计师必备!AI一键生成装饰元素,30+样本复刻风格+无缝融合的开源艺术编辑框架
PhotoDoodle 是由字节跳动、新加坡国立大学等联合推出的艺术化图像编辑框架,能够通过少量样本学习艺术家的独特风格,实现照片涂鸦和装饰性元素生成。
21 1
PhotoDoodle:设计师必备!AI一键生成装饰元素,30+样本复刻风格+无缝融合的开源艺术编辑框架
|
2天前
|
数据采集 人工智能 编解码
算法系统协同优化,vivo与港中文推出BlueLM-V-3B,手机秒变多模态AI专家
BlueLM-V-3B是由vivo与香港中文大学共同研发的多模态大型语言模型,专为移动设备优化。它通过算法和系统协同优化,实现了高效部署和快速生成速度(24.4 token/s),并在OpenCompass基准测试中取得优异成绩(66.1分)。模型小巧,语言部分含27亿参数,视觉编码器含4000万参数,适合移动设备使用。尽管如此,低端设备可能仍面临资源压力,实际应用效果需进一步验证。论文链接:https://arxiv.org/abs/2411.10640。
18 9
|
4天前
|
存储 人工智能 开发框架
Spring AI Alibaba 应用框架挑战赛圆满落幕,恭喜获奖选手
第二届开放原子大赛 Spring AI Alibaba 应用框架挑战赛决赛于 2 月 23 日在北京圆满落幕。
|
4天前
|
人工智能 自然语言处理 API
深入浅出 LangChain 与智能 Agent:构建下一代 AI 助手
深入浅出 LangChain 与智能 Agent:构建下一代 AI 助手
|
1天前
|
人工智能 自然语言处理 机器人
对话阿里云CIO蒋林泉:AI时代,企业如何做好智能化系统建设?
对话阿里云CIO蒋林泉:AI时代,企业如何做好智能化系统建设?
|
2天前
|
存储 人工智能 开发框架
Spring AI Alibaba 应用框架挑战赛圆满落幕,恭喜获奖选手
Spring AI Alibaba 应用框架挑战赛圆满落幕,恭喜获奖选手
|
3天前
|
人工智能 自然语言处理 数据可视化
数势科技智能分析AI Agent 何以在市场中脱颖而出?
数势科技智能分析AI Agent 何以在市场中脱颖而出?
|
4天前
|
存储 人工智能 搜索推荐
Memobase:开源AI长期记忆系统,让AI真正记住每个用户的秘密武器
Memobase 是一个开源的长期记忆系统,专为生成式 AI 应用设计,通过用户画像和时间感知记忆功能,帮助 AI 记住、理解并适应用户需求。
39 0
|
4月前
|
JavaScript 前端开发 数据处理
模板字符串和普通字符串在浏览器和 Node.js 中的性能表现是否一致?
综上所述,模板字符串和普通字符串在浏览器和 Node.js 中的性能表现既有相似之处,也有不同之处。在实际应用中,需要根据具体的场景和性能需求来选择使用哪种字符串处理方式,以达到最佳的性能和开发效率。
126 63
|
4月前
|
JSON 移动开发 JavaScript
在浏览器执行js脚本的两种方式
【10月更文挑战第20天】本文介绍了在浏览器中执行HTTP请求的两种方式:`fetch`和`XMLHttpRequest`。`fetch`支持GET和POST请求,返回Promise对象,可以方便地处理异步操作。`XMLHttpRequest`则通过回调函数处理请求结果,适用于需要兼容旧浏览器的场景。文中还提供了具体的代码示例。
在浏览器执行js脚本的两种方式

热门文章

最新文章