Nanobrowser:开源版OpenAI Operator!AI自动操控浏览器,复杂网页任务一键搞定

简介: Nanobrowser 是一款开源的 Chrome 扩展工具,基于多智能体系统实现复杂的网页任务自动化,支持多种大型语言模型,完全免费且注重隐私保护。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🚀 「打工人速救!这个AI神器让浏览器自动干活:爬数据/抢优惠全托管,本地运行更安全」

大家好,我是蚝油菜花。你是否经历过——

  • 👉 深夜盯屏幕手动抓数据,复制粘贴到手抽筋
  • 👉 秒杀活动总是慢半拍,眼睁睁看库存归零
  • 👉 担心自动化工具泄露账号密码,云服务暗藏风险...

今天要拆解的 Nanobrowser ,彻底颠覆传统网页操作方式!这个由多AI智能体驱动的开源神器,能像真人一样:

  • ✅ 自动执行:信息收集、比价下单等复杂流程全托管
  • ✅ 智能纠错:遇到验证码/页面变动自动调整策略
  • ✅ 绝对隐私:数据100%本地处理,告别云端泄露风险

已有运营人用它自动生成竞品报告,程序员靠它抓取GitHub趋势项目——你的浏览器该升级 「自动驾驶」 模式了!

🚀 快速阅读

Nanobrowser 是一款开源的 Chrome 扩展工具,专注于 AI 驱动的网页自动化。

  1. 核心功能:基于多智能体系统,支持任务自动化、多 LLM 集成和交互式侧边栏。
  2. 技术原理:通过 Planner、Navigator 和 Validator 三个智能体协作,动态调整任务策略,确保任务成功完成。

Nanobrowser 是什么

nanobrowser

Nanobrowser 是一款开源的 Chrome 扩展工具,专注于 AI 驱动的网页自动化。它基于多智能体系统实现复杂的网页任务,如信息提取、自动化操作等。用户可以使用自己的 LLM API 密钥,灵活选择不同的模型为不同智能体提供支持。

Nanobrowser 完全免费,作为 OpenAI Operator 的开源替代方案,支持在本地浏览器运行,注重隐私保护,不涉及云服务。它让 AI 在浏览器中变得更加智能高效,适用于信息收集、电商购物、内容创作等多种场景。

Nanobrowser 的主要功能

  • 多智能体系统
    • Planner(规划器):负责制定和调整任务策略。
    • Navigator(导航器):执行网页导航和操作。
    • Validator(验证器):检查任务是否成功完成。
  • 交互式侧边栏:提供直观的聊天界面,实时显示任务状态,用户用自然语言与智能体交互。
  • 任务自动化:自动化重复性网页任务,如信息提取、数据整理等,节省时间和精力。
  • 多 LLM 支持:支持连接多种大型语言模型(LLM)提供商,用户根据需求为不同智能体选择不同的模型。

Nanobrowser 的技术原理

  • 基于 LLM 的智能体架构:Nanobrowser 的核心是多智能体系统,每个智能体由大型语言模型(LLM)驱动。智能体分工协作,高效完成复杂任务:
    • 规划器 Planner :制定和完善任务策略。
    • 导航器 Navigator :浏览网站并执行操作。
    • 验证器 Validator :确认任务结果,检查任务是否成功完成。
  • 动态任务调整与自适应性:当遇到障碍或任务失败时,Planner 智能体自动调整策略,重新规划任务路径,确保任务能够成功完成。
  • 集成多种 LLM 提供商:支持连接 OpenAI、Anthropic 等主流 LLM 提供商,用户根据需求选择不同的模型,为不同智能体分配最适合的模型。

如何运行 Nanobrowser

快速开始!

1. 下载

2. 安装

  • 解压 nanobrowser.zip
  • 在 Chrome 中打开 chrome://extensions/
    在页面右上角启用 开发者模式
  • 开启后,点击页面左上角的 加载已解压的扩展程序按钮。
  • 选择解压后的 nanobrowser 文件夹。

3. 配置智能体模型

  • 点击工具栏中的 Nanobrowser 图标,打开侧边栏。
  • 点击 设置 图标(右上角)。
  • 添加你的 LLM API 密钥。
  • 为不同智能体(Navigator、Planner、Validator)选择使用的模型。

从源代码构建项目

1. 前置条件

2. 克隆代码库

git clone https://github.com/nanobrowser/nanobrowser.git
cd nanobrowser

3. 安装依赖

pnpm install

4. 构建扩展

pnpm build

5. 加载扩展

  • 构建完成的扩展将位于 dist 目录。
  • 按照快速入门部分的步骤将扩展加载到浏览器中。

6. 开发模式(可选)

pnpm dev

Nanobrowser 的未来规划

Nanobrowser 的开发团队正在积极开发新功能,以下是一些即将推出的功能:

  • 扩展 LLM 支持:集成更多大语言模型提供商。
  • 安全防火墙:实施保护措施以确保安全的浏览操作。
  • 内存优化:减少令牌使用,同时保持上下文感知。
  • 会话回放:高效回放历史任务,同时减少令牌消耗。
  • 专用代理:开发针对复杂领域任务的专用代理。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
7月前
|
Web App开发 人工智能 自然语言处理
快速掌握Dify+Chrome MCP:打造网页操控AI助手
本文教你如何快速搭建一个能操作浏览器的AI助手:通过Dify和Chrome MCP结合,只需三步配置,即可实现自动填表、数据抓取和网页操控,无需编写代码,用自然语言就能指挥AI完成各类网页任务。
|
8月前
|
数据采集 人工智能 定位技术
分享一个开源的MCP工具使用的AI Agent 支持常用的AI搜索/地图/金融/浏览器等工具
介绍一个开源可用的 MCP Tool Use 通用工具使用的 AI Agent (GitHub: https://github.com/AI-Agent-Hub/mcp-marketplace ,Web App https://agent.deepnlp.org/agent/mcp_tool_use,支持大模型从Open MCP Marketplace (http://deepnlp.org/store/ai-agent/mcp-server) 的1w+ 的 MCP Server的描述和 Tool Schema 里面,根据用户问题 query 和 工具 Tool描述的 相关性,选择出来可以满足
|
人工智能 测试技术 API
PaperBench:OpenAI开源AI智能体评测基准,8316节点精准考核复现能力
PaperBench是OpenAI推出的开源评测框架,通过8316个评分节点系统评估AI智能体复现学术论文的能力,涵盖理论理解、代码实现到实验执行全流程。
829 30
PaperBench:OpenAI开源AI智能体评测基准,8316节点精准考核复现能力
|
人工智能 监控 数据可视化
Agent TARS:一键让AI托管电脑!字节开源PC端多模态AI助手,无缝集成浏览器与系统操作
Agent TARS 是一款开源的多模态AI助手,能够通过视觉解析网页并无缝集成命令行和文件系统,帮助用户高效完成复杂任务。
4821 13
Agent TARS:一键让AI托管电脑!字节开源PC端多模态AI助手,无缝集成浏览器与系统操作
|
11月前
|
人工智能 自然语言处理 安全
💻 Codex 来了:OpenAI 推出多任务软件工程 AI 代理,开发者工作方式将被重塑?
Codex 是 OpenAI 推出的一款云端智能开发代理,基于优化后的 Codex-1 模型,能够执行从代码编写、Bug 修复到 PR 提交的完整工程任务。通过 ChatGPT 的界面,用户可向 Codex 分配任务,它将在独立沙盒中运行并返回结果。Codex 支持多任务异步处理,遵循项目规范(AGENTS.md),并生成日志与测试报告以确保透明性。作为“AI 参与式开发”的里程碑,Codex 不仅提升效率,还可能重塑开发者角色,使他们从具体编码转向指导 AI 完成任务,推动软件工程进入意图驱动的新时代。
1269 16
|
人工智能 机器人 开发工具
Amazon Nova Act:网页操作全自动!亚马逊黑科技把浏览器变AI机器人,请假/订餐/写邮件一键搞定
Amazon Nova Act是亚马逊AGI实验室推出的通用AI代理系统,通过原子化分解网页操作任务并配合Playwright实现高可靠性浏览器自动化,其配套SDK支持开发者快速构建智能体应用原型。
626 13
Amazon Nova Act:网页操作全自动!亚马逊黑科技把浏览器变AI机器人,请假/订餐/写邮件一键搞定
|
11月前
|
人工智能 算法 自动驾驶
AI和大数据:是工具,还是操控人心的“隐形之手”?
AI和大数据:是工具,还是操控人心的“隐形之手”?
237 1
|
数据采集 人工智能 JavaScript
Browser Use:40.7K Star!一句话让AI完全接管浏览器!自动规划完成任务,多标签页同时管理
Browser Use 是一款专为大语言模型设计的智能浏览器自动化工具,支持多标签页管理、视觉识别、内容提取等功能,并能记录和重复执行特定动作,适用于多种应用场景。
3223 21
Browser Use:40.7K Star!一句话让AI完全接管浏览器!自动规划完成任务,多标签页同时管理
|
12月前
|
人工智能 JSON 自然语言处理
让AI听懂你的建模需求!BlenderMCP:自然语言指令直接操控 Blender,一句话生成复杂3D场景
BlenderMCP通过MCP协议实现Blender与Claude AI的无缝集成,支持通过自然语言指令完成3D建模、材质调整等复杂操作,显著提升创作效率。
1474 1
让AI听懂你的建模需求!BlenderMCP:自然语言指令直接操控 Blender,一句话生成复杂3D场景
|
12月前
|
人工智能 搜索推荐 开发者
GPT-4o测评准确率竟不到1%!BrowseComp:OpenAI开源AI代理评测新基准,1266道高难度网络检索问题
OpenAI最新开源的BrowseComp基准包含1266个高难度网络检索问题,覆盖影视、科技、艺术等九大领域,其最新Deep Research模型以51.5%准确率展现复杂信息整合能力,为AI代理的浏览能力评估建立新标准。
836 4
GPT-4o测评准确率竟不到1%!BrowseComp:OpenAI开源AI代理评测新基准,1266道高难度网络检索问题

热门文章

最新文章