Nanobrowser:开源版OpenAI Operator!AI自动操控浏览器,复杂网页任务一键搞定

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
NLP自然语言处理_高级版,每接口累计50万次
简介: Nanobrowser 是一款开源的 Chrome 扩展工具,基于多智能体系统实现复杂的网页任务自动化,支持多种大型语言模型,完全免费且注重隐私保护。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🚀 「打工人速救!这个AI神器让浏览器自动干活:爬数据/抢优惠全托管,本地运行更安全」

大家好,我是蚝油菜花。你是否经历过——

  • 👉 深夜盯屏幕手动抓数据,复制粘贴到手抽筋
  • 👉 秒杀活动总是慢半拍,眼睁睁看库存归零
  • 👉 担心自动化工具泄露账号密码,云服务暗藏风险...

今天要拆解的 Nanobrowser ,彻底颠覆传统网页操作方式!这个由多AI智能体驱动的开源神器,能像真人一样:

  • ✅ 自动执行:信息收集、比价下单等复杂流程全托管
  • ✅ 智能纠错:遇到验证码/页面变动自动调整策略
  • ✅ 绝对隐私:数据100%本地处理,告别云端泄露风险

已有运营人用它自动生成竞品报告,程序员靠它抓取GitHub趋势项目——你的浏览器该升级 「自动驾驶」 模式了!

🚀 快速阅读

Nanobrowser 是一款开源的 Chrome 扩展工具,专注于 AI 驱动的网页自动化。

  1. 核心功能:基于多智能体系统,支持任务自动化、多 LLM 集成和交互式侧边栏。
  2. 技术原理:通过 Planner、Navigator 和 Validator 三个智能体协作,动态调整任务策略,确保任务成功完成。

Nanobrowser 是什么

nanobrowser

Nanobrowser 是一款开源的 Chrome 扩展工具,专注于 AI 驱动的网页自动化。它基于多智能体系统实现复杂的网页任务,如信息提取、自动化操作等。用户可以使用自己的 LLM API 密钥,灵活选择不同的模型为不同智能体提供支持。

Nanobrowser 完全免费,作为 OpenAI Operator 的开源替代方案,支持在本地浏览器运行,注重隐私保护,不涉及云服务。它让 AI 在浏览器中变得更加智能高效,适用于信息收集、电商购物、内容创作等多种场景。

Nanobrowser 的主要功能

  • 多智能体系统
    • Planner(规划器):负责制定和调整任务策略。
    • Navigator(导航器):执行网页导航和操作。
    • Validator(验证器):检查任务是否成功完成。
  • 交互式侧边栏:提供直观的聊天界面,实时显示任务状态,用户用自然语言与智能体交互。
  • 任务自动化:自动化重复性网页任务,如信息提取、数据整理等,节省时间和精力。
  • 多 LLM 支持:支持连接多种大型语言模型(LLM)提供商,用户根据需求为不同智能体选择不同的模型。

Nanobrowser 的技术原理

  • 基于 LLM 的智能体架构:Nanobrowser 的核心是多智能体系统,每个智能体由大型语言模型(LLM)驱动。智能体分工协作,高效完成复杂任务:
    • 规划器 Planner :制定和完善任务策略。
    • 导航器 Navigator :浏览网站并执行操作。
    • 验证器 Validator :确认任务结果,检查任务是否成功完成。
  • 动态任务调整与自适应性:当遇到障碍或任务失败时,Planner 智能体自动调整策略,重新规划任务路径,确保任务能够成功完成。
  • 集成多种 LLM 提供商:支持连接 OpenAI、Anthropic 等主流 LLM 提供商,用户根据需求选择不同的模型,为不同智能体分配最适合的模型。

如何运行 Nanobrowser

快速开始!

1. 下载

2. 安装

  • 解压 nanobrowser.zip
  • 在 Chrome 中打开 chrome://extensions/
    在页面右上角启用 开发者模式
  • 开启后,点击页面左上角的 加载已解压的扩展程序按钮。
  • 选择解压后的 nanobrowser 文件夹。

3. 配置智能体模型

  • 点击工具栏中的 Nanobrowser 图标,打开侧边栏。
  • 点击 设置 图标(右上角)。
  • 添加你的 LLM API 密钥。
  • 为不同智能体(Navigator、Planner、Validator)选择使用的模型。

从源代码构建项目

1. 前置条件

2. 克隆代码库

git clone https://github.com/nanobrowser/nanobrowser.git
cd nanobrowser

3. 安装依赖

pnpm install

4. 构建扩展

pnpm build

5. 加载扩展

  • 构建完成的扩展将位于 dist 目录。
  • 按照快速入门部分的步骤将扩展加载到浏览器中。

6. 开发模式(可选)

pnpm dev

Nanobrowser 的未来规划

Nanobrowser 的开发团队正在积极开发新功能,以下是一些即将推出的功能:

  • 扩展 LLM 支持:集成更多大语言模型提供商。
  • 安全防火墙:实施保护措施以确保安全的浏览操作。
  • 内存优化:减少令牌使用,同时保持上下文感知。
  • 会话回放:高效回放历史任务,同时减少令牌消耗。
  • 专用代理:开发针对复杂领域任务的专用代理。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
28天前
|
Web App开发 人工智能 自然语言处理
快速掌握Dify+Chrome MCP:打造网页操控AI助手
本文教你如何快速搭建一个能操作浏览器的AI助手:通过Dify和Chrome MCP结合,只需三步配置,即可实现自动填表、数据抓取和网页操控,无需编写代码,用自然语言就能指挥AI完成各类网页任务。
|
2月前
|
数据采集 人工智能 定位技术
分享一个开源的MCP工具使用的AI Agent 支持常用的AI搜索/地图/金融/浏览器等工具
介绍一个开源可用的 MCP Tool Use 通用工具使用的 AI Agent (GitHub: https://github.com/AI-Agent-Hub/mcp-marketplace ,Web App https://agent.deepnlp.org/agent/mcp_tool_use,支持大模型从Open MCP Marketplace (http://deepnlp.org/store/ai-agent/mcp-server) 的1w+ 的 MCP Server的描述和 Tool Schema 里面,根据用户问题 query 和 工具 Tool描述的 相关性,选择出来可以满足
|
3月前
|
机器学习/深度学习 人工智能 文字识别
浏览器AI模型插件下载,支持chatgpt、claude、grok、gemini、DeepSeek等顶尖AI模型!
极客侧边栏是一款浏览器插件,集成ChatGPT、Claude、Grok、Gemini等全球顶尖AI模型,支持网页提问、文档分析、图片生成、智能截图、内容总结等功能。无需切换页面,办公写作效率倍增。内置书签云同步与智能整理功能,管理更高效。跨平台使用,安全便捷,是AI时代必备工具!
238 8
|
3月前
|
机器学习/深度学习 人工智能 算法
面向工业4.0的AI Agent多任务协作与调度系统设计
随着人工智能(AI)技术的飞速发展,智能制造成为现代工业的核心驱动力。传统制造系统在面对多任务、高频次和动态变化的调度需求时,往往效率低下。而基于AI Agent的多任务协作与调度机制为解决这一问题提供了全新思路。本文聚焦于面向智能制造场景中,如何通过AI Agent实现多任务协作调度,并引入强化学习方法进行算法优化。
|
3月前
|
存储 人工智能 API
传统AI单点能力突出,为何面对复杂任务却远不及智能体?揭晓智能体的本质与核心优势
AI产品专家三桥君认为智能体作为新一代AI形态,正在重塑企业数字化运营模式。相比传统AI的单任务处理局限,智能体具备自主规划、工具调用、记忆存储和行动执行等核心能力,可完成从客户服务到订单处理的全流程业务自动化。作为企业IT技术演进的革命性突破,智能体通过智能编排微服务实现复杂流程调度,成为数字化转型的关键驱动力。未来,随着技术成熟,智能体将在更多领域释放降本增效价值,推动AI技术从单点突破走向系统化落地。
629 0
|
机器学习/深度学习 人工智能 编解码
AI虫子种类识别数据集(近3000张图片已划分、已标注)|适用于YOLO系列深度学习分类检测任务【数据集分享】
本数据集包含近3000张已划分、标注的虫子图像,适用于YOLO系列模型的目标检测与分类任务。涵盖7类常见虫子,标注采用YOLO格式,结构清晰,适合农业智能化、小样本学习及边缘部署研究。数据来源多样,标注精准,助力AI虫害识别落地应用。
|
5月前
|
人工智能 自然语言处理 安全
💻 Codex 来了:OpenAI 推出多任务软件工程 AI 代理,开发者工作方式将被重塑?
Codex 是 OpenAI 推出的一款云端智能开发代理,基于优化后的 Codex-1 模型,能够执行从代码编写、Bug 修复到 PR 提交的完整工程任务。通过 ChatGPT 的界面,用户可向 Codex 分配任务,它将在独立沙盒中运行并返回结果。Codex 支持多任务异步处理,遵循项目规范(AGENTS.md),并生成日志与测试报告以确保透明性。作为“AI 参与式开发”的里程碑,Codex 不仅提升效率,还可能重塑开发者角色,使他们从具体编码转向指导 AI 完成任务,推动软件工程进入意图驱动的新时代。
371 16
|
5月前
|
人工智能 算法 自动驾驶
AI和大数据:是工具,还是操控人心的“隐形之手”?
AI和大数据:是工具,还是操控人心的“隐形之手”?
143 1
|
10月前
|
Go 开发工具
百炼-千问模型通过openai接口构建assistant 等 go语言
由于阿里百炼平台通义千问大模型没有完善的go语言兼容openapi示例,并且官方答复assistant是不兼容openapi sdk的。 实际使用中发现是能够支持的,所以自己写了一个demo test示例,给大家做一个参考。

热门文章

最新文章