Browser Use:开源 AI 浏览器助手,自动完成网页交互任务,支持多标签页管理、视觉识别和内容提取等功能

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: Browser Use 是一款专为大语言模型设计的智能浏览器工具,支持多标签页管理、视觉识别、内容提取等功能,并能记录和重复执行特定动作,适用于多种应用场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

原文链接:https://mp.weixin.qq.com/s/y6ROPnCe0322rYkvC2sA3w


🚀 快速阅读

  1. 功能:支持多标签页管理、视觉识别、内容提取等。
  2. 技术:集成大型语言模型,使用自动化工具模拟人类操作。
  3. 应用:适用于在线订票、求职申请、数据收集等场景。

正文(附运行示例)

Browser Use 是什么

公众号: 蚝油菜花 - browser-use

Browser Use 是一款专为大语言模型(LLM)设计的智能浏览器工具,旨在让 AI 代理能够像人类一样自然地浏览和操作网页。它支持多标签页管理、视觉识别、内容提取,并能记录和重复执行特定动作。

Browser Use 还支持开发者自定义动作,如保存文件、推送到数据库等。它兼容多种主流的大型语言模型,如 GPT-4 和 Claude,并能并行运行多个 AI 代理,具备自我修正功能,从而提高任务执行的准确性和效率。

Browser Use 的主要功能

  • 网页浏览与操作:AI 代理能像人类用户一样浏览网页和执行操作。
  • 多标签页管理:支持同时管理多个浏览器标签页,提高任务处理效率。
  • 视觉识别与内容提取:识别网页视觉元素并提取 HTML 内容。
  • 操作记录与重复执行:记录 AI 在浏览器中执行的操作,并能重复这些操作。
  • 自定义动作支持:支持开发者定义和执行自定义动作,例如保存数据到文件或推送到数据库。
  • 主流 LLM 模型支持:兼容多种大型语言模型(LLM),如 GPT-4、Claude、Llama 等。

Browser Use 的技术原理

  • 集成 LLM 模型:集成大型语言模型(LLM)理解和执行复杂的网页任务。
  • 浏览器自动化:用自动化工具如 Playwright,模拟人类用户的浏览器操作。
  • 异步编程:支持异步编程,让 AI 代理能非阻塞地执行网络请求和浏览器操作。
  • 自定义动作注册:支持开发者用装饰器或 Pydantic 模型注册自定义动作,扩展 AI 代理的功能。
  • 上下文管理:基于浏览器上下文(Browser Context)管理不同代理的独立会话,保持状态隔离。
  • XPath 和元素定位:用 XPath 和其他方法定位网页元素,实现精确的网页交互。

如何运行 Browser Use

首先,安装 Browser Use:

pip install browser-use

(可选)安装 Playwright:

playwright install

然后,启动你的 AI 代理:

from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio

async def main():
    agent = Agent(
        task="Find a one-way flight from Bali to Oman on 12 January 2025 on Google Flights. Return me the cheapest option.",
        llm=ChatOpenAI(model="gpt-4o"),
    )
    result = await agent.run()
    print(result)

asyncio.run(main())

别忘了在 .env 文件中添加你的 API 密钥:

OPENAI_API_KEY=
ANTHROPIC_API_KEY=

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
3月前
|
人工智能 开发者
阿里云百炼X支付宝:「AI打赏」功能上线,Agent变现更灵活🎉🎉🎉
阿里云百炼平台联合支付宝,推出业内首个Agent「AI打赏」功能,开发者可为应用一键配置赞赏功能,用户打赏金额将直接转入开发者支付宝账户,助力快速变现。
359 1
|
5月前
|
数据采集 人工智能 JSON
Crawl4AI:为大语言模型打造的开源网页数据采集工具
随着大语言模型(LLMs)的快速发展,高质量数据成为智能系统的关键基础。**Crawl4AI**是一款专为LLMs设计的开源网页爬取工具,可高效提取并结构化处理网页数据,突破传统API限制,支持JSON、HTML或Markdown等格式输出。
453 3
Crawl4AI:为大语言模型打造的开源网页数据采集工具
|
26天前
|
数据采集 人工智能 定位技术
分享一个开源的MCP工具使用的AI Agent 支持常用的AI搜索/地图/金融/浏览器等工具
介绍一个开源可用的 MCP Tool Use 通用工具使用的 AI Agent (GitHub: https://github.com/AI-Agent-Hub/mcp-marketplace ,Web App https://agent.deepnlp.org/agent/mcp_tool_use,支持大模型从Open MCP Marketplace (http://deepnlp.org/store/ai-agent/mcp-server) 的1w+ 的 MCP Server的描述和 Tool Schema 里面,根据用户问题 query 和 工具 Tool描述的 相关性,选择出来可以满足
|
3月前
|
人工智能 测试技术 API
Apipost vs Apifox:AI能力及功能对比
2025年,AI技术深度融入企业业务系统,成为提升生产力与竞争力的关键。本文对比了API管理工具Apipost与Apifox的AI能力。Apipost在智能识别、测试用例生成、脚本函数生成及文档处理等方面表现突出,显著提升开发效率与质量;而Apifox功能相对局限,依赖手动操作,难以满足高要求的现代开发需求。Apipost凭借全面的AI赋能,正引领API开发迈向智能化新时代。
58 0
|
5月前
|
人工智能 缓存 Java
用 AI 搭建秒杀平台后端,一周搞定所有功能(附超详细踩坑记录)
本文分享如何借助AI技术快速搭建电商秒杀平台后端。通过飞算JavaAI,从需求分析到代码生成全流程智能化,大幅提高开发效率。文章详细记录了技术栈选择(Java、Spring Boot、MySQL、Redis)、系统架构设计、缓存机制优化、数据一致性保障及测试调优等环节,解决高并发难题,助开发者高效完成秒杀平台构建并规避常见坑点。
|
5月前
|
Web App开发 前端开发 JavaScript
如何模拟浏览器行为获取网页中的隐藏表单数据?
如何模拟浏览器行为获取网页中的隐藏表单数据?
|
5月前
|
人工智能 搜索推荐 IDE
突破网页数据集获取难题:Web Unlocker API 助力 AI 训练与微调数据集全方位解决方案
本文介绍了Web Unlocker API、Web-Scraper和SERP API三大工具,助力解决AI训练与微调数据集获取难题。Web Unlocker API通过智能代理和CAPTCHA绕过技术,高效解锁高防护网站数据;Web-Scraper支持动态内容加载,精准抓取复杂网页信息;SERP API专注搜索引擎结果页数据抓取,适用于SEO分析与市场研究。这些工具大幅降低数据获取成本,提供合规保障,特别适合中小企业使用。粉丝专属体验入口提供2刀额度,助您轻松上手!
270 2
|
5月前
|
人工智能 自然语言处理 搜索推荐
WordPress AI 原创文章自动生成插件,新增自定义生成图片API功能,支持自定义99%的生图API,拓展性超强
这是一款功能强大的WordPress AI原创文章自动生成插件,支持两种智能生成模式:传统自动方式和懒人智能方式。通过AI生成长尾关键词、多语言文章、动态化标题与内容结构,优化SEO效果,去AI特征,吸引更多点击。插件可自动生成配图、TAG标签及摘要,支持24小时无人值守自动化生成文章,并提交至各大搜索引擎。同时提供关键词管理、定时任务、API集成等功能,兼容主流AI模型,助力网站内容创作与SEO优化。适合个人站长及企业用户提升内容生产力。
|
10月前
|
JavaScript 前端开发 数据处理
模板字符串和普通字符串在浏览器和 Node.js 中的性能表现是否一致?
综上所述,模板字符串和普通字符串在浏览器和 Node.js 中的性能表现既有相似之处,也有不同之处。在实际应用中,需要根据具体的场景和性能需求来选择使用哪种字符串处理方式,以达到最佳的性能和开发效率。
225 63
|
10月前
|
算法 开发者
Moment.js库是如何处理不同浏览器的时间戳格式差异的?
总的来说,Moment.js 通过一系列的技术手段和策略,有效地处理了不同浏览器的时间戳格式差异,为开发者提供了一个稳定、可靠且易于使用的时间处理工具。
274 57

热门文章

最新文章