Browser Use：40.7K Star！一句话让AI完全接管浏览器！自动规划完成任务，多标签页同时管理

2025-03-12 1873

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

NLP自然语言处理_基础版，每接口每天50万次

NLP 自学习平台，3个模型定制额度 1个月

NLP自然语言处理_高级版，每接口累计50万次

简介： Browser Use 是一款专为大语言模型设计的智能浏览器自动化工具，支持多标签页管理、视觉识别、内容提取等功能，并能记录和重复执行特定动作，适用于多种应用场景。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发感兴趣，我会每日分享大模型与 AI 领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦

🚀 「网页操作告别重复劳动！AI智能浏览器实现全自动抓取，效率提升300%」

大家好，我是蚝油菜花。你是否也经历过这些崩溃时刻——

👉 彻夜写爬虫代码，却被反爬机制拦截到怀疑人生
👉 手动重复点击网页按钮，机械操作导致腱鞘炎警告
👉 多平台数据采集时，开了20个标签页却找不到关键信息...

今天要揭秘的 Browser Use ，正在用AI重新定义浏览器自动化！这个支持GPT-4/Claude的神器，能让你：

✅ 像人类一样智能操作：视觉识别按钮+理解网页语义，绕过99%反爬机制
✅ 并发管理多标签页：同时处理10个任务不混乱，自动提取结构化数据
✅ 自定义动作扩展：通过@action装饰器，3行代码就能对接数据库/生成报表

已经有金融公司用它自动抓取财报数据，跨境电商团队靠它批量上架商品——你的浏览器即将获得「钢铁侠的贾维斯」同款智能！

🚀 快速阅读

功能：支持多标签页管理、视觉识别、内容提取等。
技术：集成大型语言模型，使用自动化工具模拟人类操作。
应用：适用于在线订票、求职申请、数据收集等场景。

Browser Use 是什么

browser-use-cover

Browser Use 是一款专为大语言模型（LLM）设计的智能浏览器工具，旨在让 AI 代理能够像人类一样自然地浏览和操作网页。它支持多标签页管理、视觉识别、内容提取，并能记录和重复执行特定动作。

Browser Use 还支持开发者自定义动作，如保存文件、推送到数据库等。它兼容多种主流的大型语言模型，如 GPT-4 和 Claude，并能并行运行多个 AI 代理，具备自我修正功能，从而提高任务执行的准确性和效率。

Browser Use 的主要功能

网页浏览与操作：AI 代理能像人类用户一样浏览网页和执行操作。
多标签页管理：支持同时管理多个浏览器标签页，提高任务处理效率。
视觉识别与内容提取：识别网页视觉元素并提取 HTML 内容。
操作记录与重复执行：记录 AI 在浏览器中执行的操作，并能重复这些操作。
自定义动作支持：支持开发者定义和执行自定义动作，例如保存数据到文件或推送到数据库。
主流 LLM 模型支持：兼容多种大型语言模型（LLM），如 GPT-4、Claude、Llama 等。

Browser Use 的技术原理

集成 LLM 模型：集成大型语言模型（LLM）理解和执行复杂的网页任务。
浏览器自动化：用自动化工具如 Playwright，模拟人类用户的浏览器操作。
异步编程：支持异步编程，让 AI 代理能非阻塞地执行网络请求和浏览器操作。
自定义动作注册：支持开发者用装饰器或 Pydantic 模型注册自定义动作，扩展 AI 代理的功能。
上下文管理：基于浏览器上下文（Browser Context）管理不同代理的独立会话，保持状态隔离。
XPath 和元素定位：用 XPath 和其他方法定位网页元素，实现精确的网页交互。

如何运行 Browser Use

Browser-use 是一个强大的工具，允许用户通过 AI 代理控制浏览器，实现自动化任务。以下将详细介绍如何安装、配置和运行 Browser-use，同时提供一个简单的代码示例帮助你快速上手。

快速开始！

1. 安装 Browser-use

Browser-use 需要 Python 3.11 或更高版本。首先，通过 pip 安装该工具：

pip install browser-use

接下来，安装 Playwright，这是 Browser-use 的依赖项：

playwright install

2. 编写并运行示例代码

以下是一个简单的代码示例，展示如何使用 Browser-use 来比较两个模型的价格：

from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio
from dotenv import load_dotenv

load_dotenv()

async def main():
    # 初始化代理，指定任务和使用的语言模型
    agent = Agent(
        task="比较 gpt-4o 和 DeepSeek-V3 的价格",
        llm=ChatOpenAI(model="gpt-4o"),
    )
    # 运行代理
    await agent.run()

# 执行异步任务
asyncio.run(main())

3. 配置 API 密钥

在运行代码之前，确保在 .env 文件中添加所需的 API 密钥。例如，如果使用 OpenAI 的模型，添加以下内容：

OPENAI_API_KEY=your_openai_api_key_here

更多配置和选项，请参考Browser-use 的项目文档。

Browser-use 的项目文档：https://docs.browser-use.com

通过 WebUI 测试 Browser-use

除了代码方式，Browser-use 还支持通过 Gradio WebUI 进行测试。以下是运行 Gradio 示例的步骤：

1. 安装 Gradio

首先，通过 uv 安装 Gradio：

uv pip install gradio

2. 启动 Gradio 示例

运行以下命令启动 Gradio 示例：

python examples/ui/gradio_demo.py

启动后，你可以在本地浏览器中访问 Gradio 提供的界面，进行交互式测试 Browser-use。

Browser Use 示例代码和演示

Browser-use 提供了多种实际应用场景的示例代码，以下是一些常见任务的演示：

1. 自动添加购物车并结账

通过以下代码，AI 代理可以自动将商品添加到购物车并完成结账：

Task: Add grocery items to cart, and checkout.

browser-use-demo1

示例代码：https://github.com/browser-use/browser-use/blob/main/examples/use-cases/shopping.py

2. 将 LinkedIn 粉丝添加到 Salesforce

以下任务展示了如何将最新的 LinkedIn 粉丝添加到 Salesforce 的潜在客户列表中：

Prompt: Add my latest LinkedIn follower to my leads in Salesforce.

browser-use-demo2

3. 自动申请机器学习相关职位

通过读取简历并搜索相关职位，AI 代理可以自动完成职位申请任务：

Prompt: Read my CV & find ML jobs, save them to a file, and then start applying for them in new tabs, if you need help, ask me.'

browser-use-demo3

示例代码：https://github.com/browser-use/browser-use/blob/main/examples/use-cases/find_and_apply_to_jobs.py

4. 自动写文档并保存为 PDF

以下任务展示了如何在Google Docs中写一封信，并将其保存为PDF文档：

Prompt: Write a letter in Google Docs to my Papa, thanking him for everything, and save the document as a PDF.

browser-use-demo4

Browser Use 的未来展望

Browser-use 的目标是让用户能够通过简单的指令完成复杂的浏览器任务。以下是其未来发展的主要方向：

代理功能改进

改进代理的记忆能力（如总结、压缩、RAG 等）
增强规划能力（加载特定网站上下文）
减少令牌消耗（优化系统提示和 DOM 状态）

DOM 提取优化

提高对日期选择器、下拉菜单等特殊元素的提取能力
改进 UI 元素的状态表示

任务重运行

使用 LLM 作为回退机制
简化工作流模板的定义
返回 Playwright 脚本以供进一步使用

数据集与用户体验

创建复杂任务的数据集
提供高质量的 GIF 演示
开发更多教程和实际应用场景

资源

项目官网：https://browser-use.com/
GitHub 仓库：https://github.com/browser-use/browser-use