Browser Use：开源 AI 浏览器助手，自动完成网页交互任务，支持多标签页管理、视觉识别和内容提取等功能

2024-12-26 26

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

图像搜索，7款服务类型 1个月

简介： Browser Use 是一款专为大语言模型设计的智能浏览器工具，支持多标签页管理、视觉识别、内容提取等功能，并能记录和重复执行特定动作，适用于多种应用场景。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

原文链接：https://mp.weixin.qq.com/s/y6ROPnCe0322rYkvC2sA3w

🚀 快速阅读

功能：支持多标签页管理、视觉识别、内容提取等。
技术：集成大型语言模型，使用自动化工具模拟人类操作。
应用：适用于在线订票、求职申请、数据收集等场景。

正文（附运行示例）

Browser Use 是什么

公众号: 蚝油菜花 - browser-use

Browser Use 是一款专为大语言模型（LLM）设计的智能浏览器工具，旨在让 AI 代理能够像人类一样自然地浏览和操作网页。它支持多标签页管理、视觉识别、内容提取，并能记录和重复执行特定动作。

Browser Use 还支持开发者自定义动作，如保存文件、推送到数据库等。它兼容多种主流的大型语言模型，如 GPT-4 和 Claude，并能并行运行多个 AI 代理，具备自我修正功能，从而提高任务执行的准确性和效率。

Browser Use 的主要功能

网页浏览与操作：AI 代理能像人类用户一样浏览网页和执行操作。
多标签页管理：支持同时管理多个浏览器标签页，提高任务处理效率。
视觉识别与内容提取：识别网页视觉元素并提取 HTML 内容。
操作记录与重复执行：记录 AI 在浏览器中执行的操作，并能重复这些操作。
自定义动作支持：支持开发者定义和执行自定义动作，例如保存数据到文件或推送到数据库。
主流 LLM 模型支持：兼容多种大型语言模型（LLM），如 GPT-4、Claude、Llama 等。

Browser Use 的技术原理

集成 LLM 模型：集成大型语言模型（LLM）理解和执行复杂的网页任务。
浏览器自动化：用自动化工具如 Playwright，模拟人类用户的浏览器操作。
异步编程：支持异步编程，让 AI 代理能非阻塞地执行网络请求和浏览器操作。
自定义动作注册：支持开发者用装饰器或 Pydantic 模型注册自定义动作，扩展 AI 代理的功能。
上下文管理：基于浏览器上下文（Browser Context）管理不同代理的独立会话，保持状态隔离。
XPath 和元素定位：用 XPath 和其他方法定位网页元素，实现精确的网页交互。

如何运行 Browser Use

首先，安装 Browser Use：

pip install browser-use

（可选）安装 Playwright：

playwright install

然后，启动你的 AI 代理：

from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio

async def main():
    agent = Agent(
        task="Find a one-way flight from Bali to Oman on 12 January 2025 on Google Flights. Return me the cheapest option.",
        llm=ChatOpenAI(model="gpt-4o"),
    )
    result = await agent.run()
    print(result)

asyncio.run(main())

别忘了在 .env 文件中添加你的 API 密钥：

OPENAI_API_KEY=
ANTHROPIC_API_KEY=

资源

项目官网：https://browser-use.com/
GitHub 仓库：https://github.com/browser-use/browser-use