Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统

本文涉及的产品
图像搜索,7款服务类型 1个月
简介: Agent-E 是一个基于 AutoGen 代理框架构建的智能自动化系统,专注于浏览器内的自动化操作。它能够执行多种复杂任务,如填写表单、搜索和排序电商产品、定位网页内容等,从而提高在线效率,减少重复劳动。本文将详细介绍 Agent-E 的功能、技术原理以及如何运行该系统。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:Agent-E 能够执行多种浏览器内的自动化任务,如表单填写、电商搜索与排序、内容定位等。
  2. 技术原理:基于 AutoGen 代理框架,使用代理执行任务,并通过技能库和自然语言交互实现自动化。
  3. 运行方法:提供了详细的安装和配置指南,以及如何通过命令行运行 Agent-E。

正文(附运行示例)

Agent-E 是什么

公众号: 蚝油菜花 - Agent-E

Agent-E 是基于 AutoGen 代理框架构建的智能自动化系统,专注于浏览器内的自动化操作。它通过自然语言交互,能够执行多种复杂任务,如填写表单、搜索和排序电商产品、定位网页内容等。Agent-E 的目标是提高在线效率,减少重复劳动,让用户更专注于重要事务。

Agent-E 的核心在于其基于代理的架构,通过代理(如用户代理和浏览器导航代理)执行任务。系统围绕技能库构建,技能库包含一系列预定义的动作(技能),分为感知技能和行动技能。自然语言交互使得用户可以用自然语言与浏览器互动,让任务执行更加直观。

Agent-E 的主要功能

  • 表单填写:自动填写网络表单,包括个人信息输入。
  • 电商搜索与排序:在电商网站如亚马逊上根据销量或价格等标准搜索和排序产品。
  • 内容定位:在网站上查找特定内容,如体育比分或大学联系信息。
  • 媒体交互:与基于网络的媒体互动,包括播放 YouTube 视频和管理播放设置。
  • 网络搜索:执行全面的网络搜索,收集各种主题的信息。
  • 项目管理自动化:在项目管理平台如 JIRA 上过滤问题和自动化工作流程。

Agent-E 的技术原理

  • 基于代理的架构:基于 AutoGen 代理框架,用代理(如用户代理和浏览器导航代理)执行任务。
  • 技能库:核心功能围绕技能库构建,技能库包含一系列预定义的动作(技能),分为感知技能和行动技能。
  • 自然语言交互:支持用户用自然语言与浏览器互动,让任务执行更加直观。
  • DOM 蒸馏:基于 DOM 蒸馏技术,Agent-E 将 HTML DOM 简化为相关的 JSON 快照,专注于用户任务相关的元素。
  • 变化观察:执行动作后,Agent-E 监测状态变化,用语言反馈形式提供给 LLM,指导更准确的性能。
  • 层次化规划:采用层次化规划,将复杂任务分解为子任务,由不同级别的代理处理。

如何运行 Agent-E

快速开始

  1. 运行安装脚本
  • macOS/Linux
    ./install.sh
    
    如果需要安装 Playwright,可以使用 -p 标志:
    ./install.sh -p
    
  • Windows
    .\win_install.ps1
    
    如果需要安装 Playwright,可以使用 -p 标志:
    .\win_install.ps1 -p
    
  1. 配置环境变量
  • 编辑 .envagents_llm_config.json 文件,按照说明设置字段。
  1. 运行 Agent-E
    python -m ae.main
    
    macOS 用户
    python -u -m ae.main
    

手动设置

  1. 安装 uv
  • macOS/Linux
    curl -LsSf https://astral.sh/uv/install.sh | sh
    
  • Windows
    powershell -c "irm https://astral.sh/uv/install.ps1 | iex"
    
  1. 设置虚拟环境

    uv venv --python 3.11  # 3.10+ 也可以
    source .venv/bin/activate  # Windows: .venv\Scripts\activate
    
  2. 安装依赖

    uv pip compile pyproject.toml -o requirements.txt
    uv pip install -r requirements.txt
    
  3. 配置环境

    cp .env-example .env
    
  • 编辑 .env 文件,设置以下变量:
    • AUTOGEN_MODEL_NAME
    • AUTOGEN_MODEL_API_KEY
    • AUTOGEN_MODEL_BASE_URL(可选)
    • AUTOGEN_MODEL_API_TYPE(可选)
    • AUTOGEN_MODEL_API_VERSION(可选)
    • AUTOGEN_LLM_TEMPERATURE(可选)
    • AUTOGEN_LLM_TOP_P(可选)
    • BROWSER_STORAGE_DIR(可选)

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
10天前
|
人工智能 开发框架 安全
Smolagents:三行代码就能开发 AI 智能体,Hugging Face 开源轻量级 Agent 构建库
Smolagents 是 Hugging Face 推出的轻量级开源库,旨在简化智能代理的构建过程,支持多种大语言模型集成和代码执行代理功能。
215 69
Smolagents:三行代码就能开发 AI 智能体,Hugging Face 开源轻量级 Agent 构建库
|
10天前
|
人工智能 编解码 搜索推荐
深度测评-主动式智能导购 AI 助手构建的实现与优化
本文深度测评某平台提供的函数计算应用模板,用于快速搭建集成智能导购的电商网站。通过简洁直观的创建与部署流程,用户只需填写API Key等基本信息,即可完成配置。智能导购AI助手能通过多轮对话引导顾客明确需求,精准推荐商品,提升购物体验和转化率。系统支持自定义设置,具备高效、个性化、灵活扩展的特点。未来可引入更多维度推荐、机器学习及语音识别技术,进一步优化导购效果。
70 15
深度测评-主动式智能导购 AI 助手构建的实现与优化
|
10天前
|
人工智能 搜索推荐
SoulChat2.0:低成本构建 AI 心理咨询师,华南理工开源心理咨询师数字孪生大语言模型
SoulChat2.0 是华南理工大学推出的心理咨询师数字孪生大语言模型,能够低成本、快速构建个性化咨询风格的心理健康大模型,辅助心理咨询师工作。
56 9
SoulChat2.0:低成本构建 AI 心理咨询师,华南理工开源心理咨询师数字孪生大语言模型
|
5天前
|
消息中间件 人工智能 Serverless
主动式智能导购AI助手构建解决方案评测
主动式智能导购AI助手构建解决方案评测
34 2
|
17天前
|
机器学习/深度学习 人工智能 自动驾驶
企业内训|AI大模型在汽车行业的前沿应用研修-某汽车集团
本课程是TsingtaoAI为某汽车集团高级项目经理设计研发,课程全面系统地解析AI的发展历程、技术基础及其在汽车行业的深度应用。通过深入浅出的理论讲解、丰富的行业案例分析以及实战项目训练,学员将全面掌握机器学习、深度学习、NLP与CV等核心技术,了解自动驾驶、智能制造、车联网与智能营销等关键应用场景,洞悉AI技术对企业战略布局的深远影响。
164 97
|
7天前
|
机器学习/深度学习 人工智能 算法
AI在体育分析与预测中的深度应用:变革体育界的智能力量
AI在体育分析与预测中的深度应用:变革体育界的智能力量
65 31
|
3天前
|
人工智能 运维 负载均衡
智能运维新时代:AI在云资源管理中的应用与实践
智能运维新时代:AI在云资源管理中的应用与实践
66 23
|
15天前
|
机器学习/深度学习 人工智能 自然语言处理
CogAgent-9B:智谱 AI 开源 GLM-PC 的基座模型,专注于预测和执行 GUI 操作,可应用于自动化交互任务
CogAgent-9B 是智谱AI基于 GLM-4V-9B 训练的专用Agent任务模型,支持高分辨率图像处理和双语交互,能够预测并执行GUI操作,广泛应用于自动化任务。
68 12
CogAgent-9B:智谱 AI 开源 GLM-PC 的基座模型,专注于预测和执行 GUI 操作,可应用于自动化交互任务
|
10天前
|
机器学习/深度学习 人工智能 监控
AI在交通管理系统中的应用
AI在交通管理系统中的应用
51 23

热门文章

最新文章