Browser Use:40.7K Star!一句话让AI完全接管浏览器!自动规划完成任务,多标签页同时管理

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
简介: Browser Use 是一款专为大语言模型设计的智能浏览器自动化工具,支持多标签页管理、视觉识别、内容提取等功能,并能记录和重复执行特定动作,适用于多种应用场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🚀 「网页操作告别重复劳动!AI智能浏览器实现全自动抓取,效率提升300%」

大家好,我是蚝油菜花。你是否也经历过这些崩溃时刻——

  • 👉 彻夜写爬虫代码,却被反爬机制拦截到怀疑人生
  • 👉 手动重复点击网页按钮,机械操作导致腱鞘炎警告
  • 👉 多平台数据采集时,开了20个标签页却找不到关键信息...

今天要揭秘的 Browser Use ,正在用AI重新定义浏览器自动化!这个支持GPT-4/Claude的神器,能让你:

  • ✅ 像人类一样智能操作:视觉识别按钮+理解网页语义,绕过99%反爬机制
  • ✅ 并发管理多标签页:同时处理10个任务不混乱,自动提取结构化数据
  • ✅ 自定义动作扩展:通过@action装饰器,3行代码就能对接数据库/生成报表

已经有金融公司用它自动抓取财报数据,跨境电商团队靠它批量上架商品——你的浏览器即将获得「钢铁侠的贾维斯」同款智能!

🚀 快速阅读

  1. 功能:支持多标签页管理、视觉识别、内容提取等。
  2. 技术:集成大型语言模型,使用自动化工具模拟人类操作。
  3. 应用:适用于在线订票、求职申请、数据收集等场景。

Browser Use 是什么

browser-use-cover

Browser Use 是一款专为大语言模型(LLM)设计的智能浏览器工具,旨在让 AI 代理能够像人类一样自然地浏览和操作网页。它支持多标签页管理、视觉识别、内容提取,并能记录和重复执行特定动作。

Browser Use 还支持开发者自定义动作,如保存文件、推送到数据库等。它兼容多种主流的大型语言模型,如 GPT-4 和 Claude,并能并行运行多个 AI 代理,具备自我修正功能,从而提高任务执行的准确性和效率。

Browser Use 的主要功能

  • 网页浏览与操作:AI 代理能像人类用户一样浏览网页和执行操作。
  • 多标签页管理:支持同时管理多个浏览器标签页,提高任务处理效率。
  • 视觉识别与内容提取:识别网页视觉元素并提取 HTML 内容。
  • 操作记录与重复执行:记录 AI 在浏览器中执行的操作,并能重复这些操作。
  • 自定义动作支持:支持开发者定义和执行自定义动作,例如保存数据到文件或推送到数据库。
  • 主流 LLM 模型支持:兼容多种大型语言模型(LLM),如 GPT-4、Claude、Llama 等。

Browser Use 的技术原理

  • 集成 LLM 模型:集成大型语言模型(LLM)理解和执行复杂的网页任务。
  • 浏览器自动化:用自动化工具如 Playwright,模拟人类用户的浏览器操作。
  • 异步编程:支持异步编程,让 AI 代理能非阻塞地执行网络请求和浏览器操作。
  • 自定义动作注册:支持开发者用装饰器或 Pydantic 模型注册自定义动作,扩展 AI 代理的功能。
  • 上下文管理:基于浏览器上下文(Browser Context)管理不同代理的独立会话,保持状态隔离。
  • XPath 和元素定位:用 XPath 和其他方法定位网页元素,实现精确的网页交互。

如何运行 Browser Use

Browser-use 是一个强大的工具,允许用户通过 AI 代理控制浏览器,实现自动化任务。以下将详细介绍如何安装、配置和运行 Browser-use,同时提供一个简单的代码示例帮助你快速上手。

快速开始!

1. 安装 Browser-use

Browser-use 需要 Python 3.11 或更高版本。首先,通过 pip 安装该工具:

pip install browser-use
AI 代码解读

接下来,安装 Playwright,这是 Browser-use 的依赖项:

playwright install
AI 代码解读

2. 编写并运行示例代码

以下是一个简单的代码示例,展示如何使用 Browser-use 来比较两个模型的价格:

from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio
from dotenv import load_dotenv

load_dotenv()

async def main():
    # 初始化代理,指定任务和使用的语言模型
    agent = Agent(
        task="比较 gpt-4o 和 DeepSeek-V3 的价格",
        llm=ChatOpenAI(model="gpt-4o"),
    )
    # 运行代理
    await agent.run()

# 执行异步任务
asyncio.run(main())
AI 代码解读

3. 配置 API 密钥

在运行代码之前,确保在 .env 文件中添加所需的 API 密钥。例如,如果使用 OpenAI 的模型,添加以下内容:

OPENAI_API_KEY=your_openai_api_key_here
AI 代码解读

更多配置和选项,请参考Browser-use 的项目文档

通过 WebUI 测试 Browser-use

除了代码方式,Browser-use 还支持通过 Gradio WebUI 进行测试。以下是运行 Gradio 示例的步骤:

1. 安装 Gradio

首先,通过 uv 安装 Gradio:

uv pip install gradio
AI 代码解读

2. 启动 Gradio 示例

运行以下命令启动 Gradio 示例:

python examples/ui/gradio_demo.py
AI 代码解读

启动后,你可以在本地浏览器中访问 Gradio 提供的界面,进行交互式测试 Browser-use。

Browser Use 示例代码和演示

Browser-use 提供了多种实际应用场景的示例代码,以下是一些常见任务的演示:

1. 自动添加购物车并结账

通过以下代码,AI 代理可以自动将商品添加到购物车并完成结账:

Task: Add grocery items to cart, and checkout.

browser-use-demo1

示例代码https://github.com/browser-use/browser-use/blob/main/examples/use-cases/shopping.py

2. 将 LinkedIn 粉丝添加到 Salesforce

以下任务展示了如何将最新的 LinkedIn 粉丝添加到 Salesforce 的潜在客户列表中:

Prompt: Add my latest LinkedIn follower to my leads in Salesforce.

browser-use-demo2

3. 自动申请机器学习相关职位

通过读取简历并搜索相关职位,AI 代理可以自动完成职位申请任务:

Prompt: Read my CV & find ML jobs, save them to a file, and then start applying for them in new tabs, if you need help, ask me.'

browser-use-demo3

示例代码https://github.com/browser-use/browser-use/blob/main/examples/use-cases/find_and_apply_to_jobs.py

4. 自动写文档并保存为 PDF

以下任务展示了如何在Google Docs中写一封信,并将其保存为PDF文档:

Prompt: Write a letter in Google Docs to my Papa, thanking him for everything, and save the document as a PDF.

browser-use-demo4

Browser Use 的未来展望

Browser-use 的目标是让用户能够通过简单的指令完成复杂的浏览器任务。以下是其未来发展的主要方向:

代理功能改进

  • 改进代理的记忆能力(如总结、压缩、RAG 等)
  • 增强规划能力(加载特定网站上下文)
  • 减少令牌消耗(优化系统提示和 DOM 状态)

DOM 提取优化

  • 提高对日期选择器、下拉菜单等特殊元素的提取能力
  • 改进 UI 元素的状态表示

任务重运行

  • 使用 LLM 作为回退机制
  • 简化工作流模板的定义
  • 返回 Playwright 脚本以供进一步使用

数据集与用户体验

  • 创建复杂任务的数据集
  • 提供高质量的 GIF 演示
  • 开发更多教程和实际应用场景

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

目录
打赏
0
22
21
1
403
分享
相关文章
揭秘8.3k star 开源神器 VoiceCraft 用AI革新有声内容创作,只需几秒录音
VoiceCraft 是一款开源语音编辑与文本转语音(TTS)工具,仅需几秒录音即可实现语音克隆、插入、删除、替换等操作,支持零样本编辑和高自然度语音生成。适用于播客、短视频、有声书等内容创作场景,具备本地部署能力,已在 GitHub 获得 8.3k 星标。
114 0
程序员必收藏!Github 167000+ star 的自主AI agent,全自动AI助手,全面覆盖开发效率场景
AutoGPT 是基于 GPT-4 的开源自主 AI 智能代理,全面覆盖开发效率场景。支持任务自动拆解、多轮反馈、插件扩展与记忆管理,具备持续执行能力,适合自动化测试、CI/CD、Web 数据抓取等任务。GitHub 超 176K Star,是当前最热门的 AI Agent 开源项目之一,提供 CLI 与 GUI 双界面,助力开发者提升工作效率。
241 1
2.4k star 开源项目,Wingman AI + 知识图谱,如何帮你搭建‘私人大脑’?学术/项目必备,让笔记真正活起来!
MindForger 是一款灵感源于人脑思维机制的桌面 Markdown IDE,帮助用户构建私人知识体系。它通过强大的语义联想与结构重构功能,解决笔记混乱、缺乏智能联接等痛点。核心功能包括 TAYR/TAYW 联想、知识图谱浏览器、Markdown 编辑器和 AI 助手 Wingman。支持本地隐私保护,跨平台使用,开源 GPLv2 许可。项目地址:https://github.com/dvorka/mindforger。
AI接管运维决策?别怕,它比你更冷静!
AI接管运维决策?别怕,它比你更冷静!
96 5
全球首款开源通用型AI智能体上线!Suna:自动处理Excel/爬数据/写报告等复杂任务一句话搞定
Suna是由Kortix推出的开源通用型AI智能体项目,通过自然语言交互实现浏览器自动化、文件管理、数据分析等复杂任务处理,支持自托管部署,为研究分析和日常工作提供智能辅助。
1070 1
全球首款开源通用型AI智能体上线!Suna:自动处理Excel/爬数据/写报告等复杂任务一句话搞定
40.8K star!让AI帮你读懂整个互联网:Crawl4AI开源爬虫工具深度解析
Crawl4AI 是2025年GitHub上备受瞩目的开源网络爬虫工具,专为AI时代设计。它不仅能抓取网页内容,还能理解页面语义结构,生成适配大语言模型的训练数据格式。上线半年获4万+星标,应用于1200+AI项目。其功能亮点包括智能内容提取引擎、AI就绪数据管道和企业级特性,支持动态页面处理、多语言识别及分布式部署。技术架构基于Python 3.10与Scrapy框架,性能卓越,适用于AI训练数据采集、行业情报监控等场景。相比Scrapy、BeautifulSoup等传统工具,Crawl4AI在动态页面支持、PDF解析和语义分块方面更具优势
1334 0
40.8K star!让AI帮你读懂整个互联网:Crawl4AI开源爬虫工具深度解析
面向工业4.0的AI Agent多任务协作与调度系统设计
随着人工智能(AI)技术的飞速发展,智能制造成为现代工业的核心驱动力。传统制造系统在面对多任务、高频次和动态变化的调度需求时,往往效率低下。而基于AI Agent的多任务协作与调度机制为解决这一问题提供了全新思路。本文聚焦于面向智能制造场景中,如何通过AI Agent实现多任务协作调度,并引入强化学习方法进行算法优化。
传统AI单点能力突出,为何面对复杂任务却远不及智能体?揭晓智能体的本质与核心优势
AI产品专家三桥君认为智能体作为新一代AI形态,正在重塑企业数字化运营模式。相比传统AI的单任务处理局限,智能体具备自主规划、工具调用、记忆存储和行动执行等核心能力,可完成从客户服务到订单处理的全流程业务自动化。作为企业IT技术演进的革命性突破,智能体通过智能编排微服务实现复杂流程调度,成为数字化转型的关键驱动力。未来,随着技术成熟,智能体将在更多领域释放降本增效价值,推动AI技术从单点突破走向系统化落地。
322 0
GitHub爆款神器 | IOPaint:21.7k star 开源AI图像修复项目,竟能秒删水印、拓展画幅!
IOPaint 是一款由 Sanster 团队开发的开源图像处理工具,集成多种 SOTA AI 模型,支持图像擦除、对象替换、文本绘制和图像外扩等功能。它操作简便,一键安装,适用于 Windows、macOS、Linux 和 Apple Silicon 系统,适合摄影爱好者、电商从业者及内容创作者使用,大幅提升图像处理效率。
GitHub 8k star!Portkey AI Gateway 如何帮你3行代码接入1600+ LLM,实现成本、可靠性与安全三赢?
Portkey AI Gateway 是一个轻量级、高速、安全的中间层,帮助应用对接多模态 AI 模型,统一管理,快速落地。支持超1600款语言、视觉、音频、图像模型,通过 1 个 API 接口实现快速、可靠、安全的模型路由。具备智能路由、自动重试、缓存机制、合规控制等功能,助力企业高效构建 AI 应用。

热门文章

最新文章

AI助理
登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问

你好,我是AI助理

可以解答问题、推荐解决方案等