❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
原文链接:https://mp.weixin.qq.com/s/y6ROPnCe0322rYkvC2sA3w
🚀 快速阅读
- 功能:支持多标签页管理、视觉识别、内容提取等。
- 技术:集成大型语言模型,使用自动化工具模拟人类操作。
- 应用:适用于在线订票、求职申请、数据收集等场景。
正文(附运行示例)
Browser Use 是什么
Browser Use 是一款专为大语言模型(LLM)设计的智能浏览器工具,旨在让 AI 代理能够像人类一样自然地浏览和操作网页。它支持多标签页管理、视觉识别、内容提取,并能记录和重复执行特定动作。
Browser Use 还支持开发者自定义动作,如保存文件、推送到数据库等。它兼容多种主流的大型语言模型,如 GPT-4 和 Claude,并能并行运行多个 AI 代理,具备自我修正功能,从而提高任务执行的准确性和效率。
Browser Use 的主要功能
- 网页浏览与操作:AI 代理能像人类用户一样浏览网页和执行操作。
- 多标签页管理:支持同时管理多个浏览器标签页,提高任务处理效率。
- 视觉识别与内容提取:识别网页视觉元素并提取 HTML 内容。
- 操作记录与重复执行:记录 AI 在浏览器中执行的操作,并能重复这些操作。
- 自定义动作支持:支持开发者定义和执行自定义动作,例如保存数据到文件或推送到数据库。
- 主流 LLM 模型支持:兼容多种大型语言模型(LLM),如 GPT-4、Claude、Llama 等。
Browser Use 的技术原理
- 集成 LLM 模型:集成大型语言模型(LLM)理解和执行复杂的网页任务。
- 浏览器自动化:用自动化工具如 Playwright,模拟人类用户的浏览器操作。
- 异步编程:支持异步编程,让 AI 代理能非阻塞地执行网络请求和浏览器操作。
- 自定义动作注册:支持开发者用装饰器或 Pydantic 模型注册自定义动作,扩展 AI 代理的功能。
- 上下文管理:基于浏览器上下文(Browser Context)管理不同代理的独立会话,保持状态隔离。
- XPath 和元素定位:用 XPath 和其他方法定位网页元素,实现精确的网页交互。
如何运行 Browser Use
首先,安装 Browser Use:
pip install browser-use
(可选)安装 Playwright:
playwright install
然后,启动你的 AI 代理:
from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio
async def main():
agent = Agent(
task="Find a one-way flight from Bali to Oman on 12 January 2025 on Google Flights. Return me the cheapest option.",
llm=ChatOpenAI(model="gpt-4o"),
)
result = await agent.run()
print(result)
asyncio.run(main())
别忘了在 .env
文件中添加你的 API 密钥:
OPENAI_API_KEY=
ANTHROPIC_API_KEY=
资源
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦