一行代码,把网页变成 AI Agent

简介: PageAgent是阿里开源的网页内智能体,纯前端,零基建,一行代码接入,支持多种模型。MIT 开源。

hero.png

各类 Agent 客户端持续爆火后,AI Agent 操控浏览器似乎已经成了一种范式:起一个后端服务,跑一个无头浏览器,截图、识别、点击。你的网页就是被操控的对象。作为 Web 开发者的我们,彻底的成了 Agent 时代的被动方。

作为前端开发者,我一直觉得这件事哪里不对。

不如换个方向:把 Agent 完整地放进网页里跑

PageAgent 是一个纯前端的实验性 GUI Agent 库。它运行在你的页面中,直接操作界面。没有后端,没有截图,没有无头浏览器。还可以通过一个可选的插件控制整个浏览器。

GitHub|MIT 开源

一行代码

zero-infra.png

  • 传统方案的部署路径:安装 Python → 安装 Playwright → 跑一个 Docker → 启动一个无头浏览器 → 截图 → 调 LLM → 解析 → 执行。
  • PageAgent 的部署路径<script src="CDN_TO/page-agent.demo.js"></script> → Done.
  • 用 npm 接入同样简洁:
import {
    PageAgent } from 'page-agent'

const agent = new PageAgent({
   
  model: 'gpt-5.1',
  baseURL: 'https://api.openai.com/v1',
  apiKey: YOUR_KEY,
})

await agent.execute('帮我填写上周五的报销单')

更多接入方式见官方文档

By Frontend, For Frontend

这个架构差异带来的不只是部署便利,而是角色反转。

Playwright、browser-use 这类工具的模式是 "外部控制" —— 你的应用是被操作的对象,你无法决定 Agent 看到什么、能做什么。实际上就是把你的产品暴露给了另一个自动化程序。

PageAgent 的模式是 "内部运行" —— Agent 是你应用的一部分,你决定它的能力边界、它看到的数据范围、它使用的模型。你的应用不是被人操控的木偶,而是自己拥有了 AI 能力。

这意味着什么?作为前端开发者,你可以:

  • 在你的 SaaS 产品里内嵌一个 AI 助手,用户用自然语言完成复杂操作
  • 给企业后台的 ERP/CRM 加上智能导航,代替 20 步点击流程
  • 把 Agent 接到你现有的客服 bot 后面 —— 它不再是告诉用户 "点击右上角的提交按钮",而是直接帮他点了

Human in the Loop

human-in-the-loop.png

大多数 AI Agent 是 "fire-and-forget" —— 启动之后你就只能看着它跑,祈祷别出错。Human-in-the-Loop 是任何 AI 工具投入实际生产的必备能力。PageAgent 会展示自己的思考过程,遇到歧义主动询问用户。

兼容各种 LLM,可纯本地运行

OpenAI、Claude、DeepSeek、Qwen、Gemini、Grok,或者 Ollama 本地离线。PageAgent 本身不含后端服务(我为了各位方便技术测试提供了免费的测试 LLM 接口)。数据直接从页面发往你配置的 LLM 端点。MIT 协议,代码完全可审计

不止于单页面

PageAgent 运行在页面内,对 SPA 来说是完美适配 —— Agent 拥有完整的应用状态和上下文。

但有些任务需要跨页面。一个可选的浏览器扩展为此提供了多标签页能力,需要用户主动授权。

extension-bridge.png

是你的网页在驱动浏览器,你网页内的 Agent 可以将 PageAgentExt 作为一个 Tool 来控制用户的整个浏览器(需要用户显式授权)。

const result = await window.PAGE_AGENT_EXT.execute(
  '在京东搜索"机械键盘",对比前三个结果的价格和评价',
  {
   
    baseURL: 'https://api.openai.com/v1',
    apiKey: YOUR_KEY,
    model: 'gpt-5.1',
    onStatusChange: (status) => updateUI(status),
  }
)

因为 Agent 跑在用户的真实浏览器里,它天然处于用户的登录态。不需要共享密码,不需要管理 Cookie,不需要后端模拟登录。用户已经登录了 —— Agent 直接操作。

这打开了后端爬虫方案做不到的场景:

  • 企业采购系统自动下单 —— 用户登录着供应商门户,Agent 直接走下单流程
  • 企业差旅预订 —— 在公司的差旅系统里操作实际的预订流程,而不是去爬公开票价
  • 项目管理自动化 —— 在团队的项目看板上直接创建任务,不需要 API 对接

模块化

architecture.png

我尽可能的做了拆分和模块化,你可以用零部件自由组合,拼装进你自己的 Agent 或者浏览器插件里。

立刻尝试🏃‍♂️

  • 在线 Demo —— 无需注册,打开就能体验。也可以把 bookmarklet 拖到书签栏,在任意网站上试试。
  • ⭐ GitHub —— MIT 开源,欢迎 Star 和 PR。
  • 接入文档 —— CDN、npm、编程式接入指南。

PageAgent 基于 MIT 协议开源。Demo 站点提供的免费测试 API 仅供体验评估,生产环境请使用自己的 LLM API Key。使用条款

目录
相关文章
|
3天前
|
人工智能 自然语言处理 JavaScript
2026年Windows+Ollama本地部署OpenClaw保姆级教程:本地AI Agent+阿里云上快速搭建
2026年OpenClaw凭借本地部署、私有化运行的特性,成为打造个人智能体的核心工具,而Ollama作为轻量级本地大模型管理工具,能让OpenClaw摆脱对云端大模型的依赖,实现**本地推理、数据不泄露、全流程私有化**的智能体验。本文基于Windows 11系统,从硬件环境准备、Ollama安装与模型定制、OpenClaw部署配置、技能扩展到常见问题排查,打造保姆级本地部署教程,同时补充阿里云OpenClaw(Clawdbot)快速部署步骤,兼顾本地私有化需求与云端7×24小时运行需求,文中所有代码命令均可直接复制执行,确保零基础用户也能快速搭建属于自己的本地智能体。
5352 29
|
10天前
|
存储 人工智能 负载均衡
阿里云OpenClaw多Agent实战宝典:从极速部署到AI团队搭建,一个人=一支高效军团
在AI自动化时代,单一Agent的“全能模式”早已无法满足复杂任务需求——记忆臃肿导致响应迟缓、上下文污染引发逻辑冲突、无关信息加载造成Token浪费,这些痛点让OpenClaw的潜力大打折扣。而多Agent架构的出现,彻底改变了这一现状:通过“单Gateway+多分身”模式,让一个Bot在不同场景下切换独立“大脑”,如同组建一支分工明确的AI团队,实现创意、写作、编码、数据分析等任务的高效协同。
4332 29
|
14天前
|
人工智能 自然语言处理 监控
OpenClaw skills重构量化交易逻辑:部署+AI全自动炒股指南(2026终极版)
2026年,AI Agent领域最震撼的突破来自OpenClaw(原Clawdbot)——这个能自主规划、执行任务的智能体,用50美元启动资金创造了48小时滚雪球至2980美元的奇迹,收益率高达5860%。其核心逻辑堪称教科书级:每10分钟扫描Polymarket近千个预测市场,借助Claude API深度推理,交叉验证NOAA天气数据、体育伤病报告、加密货币链上情绪等多维度信息,捕捉8%以上的定价偏差,再通过凯利准则将单仓位严格控制在总资金6%以内,实现低风险高频套利。
7736 66
|
4天前
|
人工智能 JSON JavaScript
手把手教你用 OpenClaw + 飞书,打造专属 AI 机器人
手把手教你用 OpenClaw(v2026.2.22-2)+ 飞书,10分钟零代码搭建专属AI机器人!内置飞书插件,无需额外安装;支持Claude等主流模型,命令行一键配置。告别复杂开发,像聊同事一样自然对话。
2192 7
手把手教你用 OpenClaw + 飞书,打造专属 AI 机器人
|
4天前
|
人工智能 运维 安全
OpenClaw极速部署:ZeroNews 远程管理OpenClaw Gateway Dashboard指南+常见错误解决
OpenClaw作为高性能AI智能体网关平台,其Gateway Dashboard是管理模型调用、渠道集成、技能插件的核心操作界面,但默认仅支持本地局域网访问。官方推荐的Tailscale、VPN等远程访问方案在国内网络环境中体验不佳,而ZeroNews凭借轻量化部署、专属域名映射、多重安全防护的特性,成为适配国内网络的最优远程管理解决方案。
1528 2
|
5天前
|
存储 人工智能 BI
2026年OpenClaw(Clawdbot)极简部署:接入小红书全自动运营,一个人=一支团队
2026年的小红书运营赛道,AI自动化工具已成为核心竞争力。OpenClaw(原Clawdbot)凭借“Skill插件化集成、全流程自动化、跨平台联动”的核心优势,彻底颠覆传统运营模式——从热点追踪、文案创作、封面设计到自动发布、账号互动,仅需一句自然语言指令,即可实现全链路闭环。而阿里云作为OpenClaw官方推荐的云端部署载体,2026年推出专属秒级部署方案,预装全套运行环境与小红书运营插件,让零基础用户也能10分钟完成部署,轻松拥有7×24小时在线的“专属运营团队”。
1676 8
|
9天前
|
人工智能 自然语言处理 安全
2026年OpenClaw Skills安装指南:Top20必装清单+阿里云上部署实操(附代码命令)
OpenClaw(原Clawdbot)的强大之处,不仅在于其开源免费的AI执行引擎核心,更在于其庞大的Skills生态——截至2026年2月,官方技能市场ClawHub已收录1700+各类技能插件,覆盖办公自动化、智能交互、生活服务等全场景。但对新手而言,面对海量技能往往无从下手,盲目安装不仅导致功能冗余,还可能引发权限冲突与安全风险。
2465 10
|
2月前
|
人工智能 自然语言处理 Shell
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
本教程指导用户在开源AI助手Clawdbot中集成阿里云百炼API,涵盖安装Clawdbot、获取百炼API Key、配置环境变量与模型参数、验证调用等完整流程,支持Qwen3-max thinking (Qwen3-Max-2026-01-23)/Qwen - Plus等主流模型,助力本地化智能自动化。
47217 160
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
|
2天前
|
人工智能 自然语言处理 安全
OpenClaw双模式部署指南:Windows+Ollama本地私有化+阿里云OpenClaw云端搭建(保姆级教程)
在AI智能体爆发的2026年,OpenClaw凭借本地部署、私有化运行、多工具集成的核心优势,成为个人与企业打造专属智能助手的首选。而Ollama作为轻量级本地大模型管理工具,能让OpenClaw彻底摆脱对云端大模型的依赖,实现“本地推理、数据不泄露、全流程私有化”的安全体验;同时阿里云提供的专属云端部署方案,可满足7×24小时稳定运行需求,兼顾隐私与便捷性。
1035 2

热门文章

最新文章