一行代码,把网页变成 AI Agent

简介: PageAgent是阿里开源的网页内智能体,纯前端,零基建,一行代码接入,支持多种模型。MIT 开源。

hero.png

各类 Agent 客户端持续爆火后,AI Agent 操控浏览器似乎已经成了一种范式:起一个后端服务,跑一个无头浏览器,截图、识别、点击。你的网页就是被操控的对象。作为 Web 开发者的我们,彻底的成了 Agent 时代的被动方。

作为前端开发者,我一直觉得这件事哪里不对。

不如换个方向:把 Agent 完整地放进网页里跑

PageAgent 是一个纯前端的实验性 GUI Agent 库。它运行在你的页面中,直接操作界面。没有后端,没有截图,没有无头浏览器。还可以通过一个可选的插件控制整个浏览器。

GitHub|MIT 开源

一行代码

zero-infra.png

  • 传统方案的部署路径:安装 Python → 安装 Playwright → 跑一个 Docker → 启动一个无头浏览器 → 截图 → 调 LLM → 解析 → 执行。
  • PageAgent 的部署路径<script src="CDN_TO/page-agent.demo.js"></script> → Done.
  • 用 npm 接入同样简洁:
import {
    PageAgent } from 'page-agent'

const agent = new PageAgent({
   
  model: 'gpt-5.1',
  baseURL: 'https://api.openai.com/v1',
  apiKey: YOUR_KEY,
})

await agent.execute('帮我填写上周五的报销单')

更多接入方式见官方文档

By Frontend, For Frontend

这个架构差异带来的不只是部署便利,而是角色反转。

Playwright、browser-use 这类工具的模式是 "外部控制" —— 你的应用是被操作的对象,你无法决定 Agent 看到什么、能做什么。实际上就是把你的产品暴露给了另一个自动化程序。

PageAgent 的模式是 "内部运行" —— Agent 是你应用的一部分,你决定它的能力边界、它看到的数据范围、它使用的模型。你的应用不是被人操控的木偶,而是自己拥有了 AI 能力。

这意味着什么?作为前端开发者,你可以:

  • 在你的 SaaS 产品里内嵌一个 AI 助手,用户用自然语言完成复杂操作
  • 给企业后台的 ERP/CRM 加上智能导航,代替 20 步点击流程
  • 把 Agent 接到你现有的客服 bot 后面 —— 它不再是告诉用户 "点击右上角的提交按钮",而是直接帮他点了

Human in the Loop

human-in-the-loop.png

大多数 AI Agent 是 "fire-and-forget" —— 启动之后你就只能看着它跑,祈祷别出错。Human-in-the-Loop 是任何 AI 工具投入实际生产的必备能力。PageAgent 会展示自己的思考过程,遇到歧义主动询问用户。

兼容各种 LLM,可纯本地运行

OpenAI、Claude、DeepSeek、Qwen、Gemini、Grok,或者 Ollama 本地离线。PageAgent 本身不含后端服务(我为了各位方便技术测试提供了免费的测试 LLM 接口)。数据直接从页面发往你配置的 LLM 端点。MIT 协议,代码完全可审计

不止于单页面

PageAgent 运行在页面内,对 SPA 来说是完美适配 —— Agent 拥有完整的应用状态和上下文。

但有些任务需要跨页面。一个可选的浏览器扩展为此提供了多标签页能力,需要用户主动授权。

extension-bridge.png

是你的网页在驱动浏览器,你网页内的 Agent 可以将 PageAgentExt 作为一个 Tool 来控制用户的整个浏览器(需要用户显式授权)。

const result = await window.PAGE_AGENT_EXT.execute(
  '在京东搜索"机械键盘",对比前三个结果的价格和评价',
  {
   
    baseURL: 'https://api.openai.com/v1',
    apiKey: YOUR_KEY,
    model: 'gpt-5.1',
    onStatusChange: (status) => updateUI(status),
  }
)

因为 Agent 跑在用户的真实浏览器里,它天然处于用户的登录态。不需要共享密码,不需要管理 Cookie,不需要后端模拟登录。用户已经登录了 —— Agent 直接操作。

这打开了后端爬虫方案做不到的场景:

  • 企业采购系统自动下单 —— 用户登录着供应商门户,Agent 直接走下单流程
  • 企业差旅预订 —— 在公司的差旅系统里操作实际的预订流程,而不是去爬公开票价
  • 项目管理自动化 —— 在团队的项目看板上直接创建任务,不需要 API 对接

模块化

architecture.png

我尽可能的做了拆分和模块化,你可以用零部件自由组合,拼装进你自己的 Agent 或者浏览器插件里。

立刻尝试🏃‍♂️

  • 在线 Demo —— 无需注册,打开就能体验。也可以把 bookmarklet 拖到书签栏,在任意网站上试试。
  • ⭐ GitHub —— MIT 开源,欢迎 Star 和 PR。
  • 接入文档 —— CDN、npm、编程式接入指南。

PageAgent 基于 MIT 协议开源。Demo 站点提供的免费测试 API 仅供体验评估,生产环境请使用自己的 LLM API Key。使用条款

目录
相关文章
|
5天前
|
人工智能 JavaScript API
解放双手!OpenClaw Agent Browser全攻略(阿里云+本地部署+免费API+网页自动化场景落地)
“让AI聊聊天、写代码不难,难的是让它自己打开网页、填表单、查数据”——2026年,无数OpenClaw用户被这个痛点困扰。参考文章直击核心:当AI只能“纸上谈兵”,无法实际操控浏览器,就永远成不了真正的“数字员工”。而Agent Browser技能的出现,彻底打破了这一壁垒——它给OpenClaw装上“上网的手和眼睛”,让AI能像真人一样打开网页、点击按钮、填写表单、提取数据,24小时不间断完成网页自动化任务。
1341 4
|
20天前
|
人工智能 监控 API
阿里云及Windows本地部署OpenClaw skill:AI Agent全自动炒股票,重构量化交易逻辑实战指南
2026年,AI Agent领域最震撼的突破来自OpenClaw(原Clawdbot)——这个能自主规划、执行任务的智能体,用50美元启动资金创造了48小时滚雪球至2980美元的奇迹,收益率高达5860%。其核心逻辑堪称教科书级:每10分钟扫描Polymarket近千个预测市场,借助多模型深度推理,交叉验证多维度信息,捕捉8%以上的定价偏差,再通过凯利准则将单仓位严格控制在总资金6%以内,实现低风险高频套利。
792 1
|
20天前
|
人工智能 安全 API
CoPaw:5分钟部署你的 AI助理
源自阿里巴巴开源生态的个人 AI 助理——CoPaw。作为阿里倾力打造的开源力作,CoPaw 完美打通钉钉、飞书、Discord 等多平台对话通道,支持定时任务自动化。内置 PDF/Office 深度处理、新闻摘要等强大技能,更开放自定义扩展接口。坚持数据全程私有化部署,绝不上传云端,让每一位用户都能在大厂技术加持下,拥有安全、专属的智能助手。
|
21天前
|
人工智能 JavaScript 测试技术
2026年OpenClaw实战宝典:云上及本地部署极速OpenClaw+30个高价值skill案例
很多用户安装完OpenClaw后,常会陷入“工具在手,不知何用”的困境。这款开源AI助理的核心价值远不止简单对话,其真正威力在于自动化任务执行、多场景协作与全流程生产力提升。2026年,OpenClaw生态已沉淀30个经用户验证的真实用例,覆盖开发、运营、运维、家庭管理等多元场景。本文将详解2026年阿里云OpenClaw超简单部署流程与本地私有化部署方案,深度拆解6个脑洞大开的核心用例,附带完整配置模板、代码命令与避坑指南,让你从“安装完成”直接跃升至“高效实战”。
894 13
|
12天前
|
人工智能 安全 算法
当赛博皇上给Ai设立三省六部
本文介绍一款创新开源系统,将中国古代“三省六部制”深度融入多智能体架构:以“太子”分拣需求、“中书”规划、“门下”审议、“六部”执行,实现AI团队协同处理复杂工程任务,兼具逻辑严谨性与文化巧思。
1357 1
当赛博皇上给Ai设立三省六部
|
8天前
|
Linux API 数据安全/隐私保护
【喂饭级教程】1分钟OpenClaw阿里云/本地部署:百炼API配置+新手必备5大Skill分享及避坑指南
2026年,OpenClaw(曾用名Clawdbot)以“GitHub星标之王”的姿态引爆开源圈,热度甚至超越Linux。但不少新手部署后陷入困惑:明明安装成功,却只能实现基础聊天功能,无法发挥其核心价值。问题的关键在于——缺少“技能包”(Skill)的OpenClaw,就像刚出生的天才宝宝,空有潜力却没有实践能力;而5款核心Skill如同精准适配的“乐高插件”,能让它瞬间解锁实时搜索、网页操作、私人记忆、长文总结、文件管理等实战能力,从“聊天工具”进化为“全能工作伙伴”。
475 3
|
24天前
|
人工智能 安全 API
2026年零门槛部署OpenClaw(Clawdbot):一键生成微信公众号文章并同步至草稿箱指南
2026年,OpenClaw(原Clawdbot、Moltbot)凭借“自然语言驱动+全流程自动化+多工具集成”的核心优势,成为开源AI智能体领域的标杆项目,尤其在自媒体创作场景中,其一键生成公众号文章、自动排版并同步至草稿箱的功能,彻底解决了创作者“磨灵感、调排版、反复修改”的低效痛点,让内容创作效率实现指数级提升。
2098 4

热门文章

最新文章