脚本是手,RPA 是手加眼,Agent 是手眼脑一起上——三层自动化的本质差异

简介: Agent与RPA/脚本本质不同:前者目标驱动、自主规划、动态执行;后者规则驱动、线性确定、UI强依赖。三者非替代,而是自动化光谱上的不同能级——脚本处理结构化任务,RPA模拟人操作,Agent应对非结构化、高变动、需推理的探索性问题。选型关键在问题确定性。

一、先把结论摆桌上:它们不在同一个坐标系里

很多人会把 Agent 和"加了 AI 的 RPA / 爬虫脚本"混为一谈,但更准确的说法是——三者处在自动化的不同能级上,不是替代关系,是光谱关系

  • Python 脚本 / 传统爬虫(Scrapy、Selenium) :规则写死,线性执行,if A then B,页面一改、XPath 一失效就崩。
  • RPA(UiPath、影刀、弘玑) :把"模拟人操作鼠标键盘"封装成可视化流程,仍是基于规则的确定性执行,擅长结构化、高重复、跨系统 UI 操作,但 UI 一变就得重录。
  • AI-powered Automation(RPA + OCR/NLP) :RPA 厂商的第二代,能处理发票识别、邮件情感分类这类"半结构化"任务,但流程仍由人定义,AI 只是某个节点的判断力补丁。
  • Agentic Automation(LLM + 规划 + 工具调用 + 反思) :给目标就行,它自己拆任务、调工具、看执行结果、反思重试,路径是动态生成的,不是预设的

UiPath 官方自己划的三阶段表说的也是这事:RPA 是"机器人执行规则",AI-powered 是"机器人带点认知",Agentic 是"代理人自主感知-推理-规划-执行"。

💡 一句话定位:脚本和 RPA 回答"怎么做"(how),Agent 回答"做成什么样子"(what) 。前者是步骤驱动,后者是目标驱动。

二、六条核心维度的硬对比

维度 Python 脚本 / RPA Agent(LLM-based)
驱动逻辑 预设规则 + 线性流程 LLM 推理 + 动态规划
遇异常 崩 / 走固定异常处理分支 反思 → 换工具或调参数重试
数据口味 结构化(表格、固定字段) 非结构化(邮件、合同、PDF、网页自然语言)
页面/UI 变动 XPath/CSS 一失效就挂 语义理解重定位,抗页面改版
可解释性 步骤全可见,审计友好 推理链可追溯但偶发"幻觉",需 guardrail
维护成本 前期低,后期 UI 一变全改 前期高(LLM + 工具链),长期抗变动强

还有两条容易被忽略的:

可解释性这块是 RPA 的反杀点——RPA 每一步 click、type、copy 都在日志里,合规审计舒服;Agent 的推理链哪怕有 trace,也可能出现"我也没想明白为啥它选了这个工具"的情况,所以企业级 Agent 必须配 guardrail + human-in-the-loop。

成本曲线是倒的——RPA 前三个月爽,第三年开始"CoE 花在 bot 维护上的钱比新建自动化的还多";Agent 前期搭 LLM + 工具 + memory + 反思循环贵,但抗变动,长尾流程省人。

三、爬虫场景:从"告诉我怎么做"到"告诉我要什么"

你主题里点了 Python 爬虫,这块是感知差异最直观的战场。

传统 Scrapy 范式

# 你得自己想清楚:用哪个 XPath、怎么翻页、怎么处理 JS、怎么换代理
response.css('.product-price::text').extract()

页面一改版,.product-price换成 .price-new,爬虫挂。动态渲染还得外挂 Playwright/Selenium,反爬要自己写中间件换 UA、换 IP。

Agentic 爬虫范式(以 Crawl4AI / Firecrawl 为代表)

# 你只说要什么,不用管 DOM 怎么变
agent.scrape("https://shop.xxx", schema={
    "name": "str",
    "price": "float",
    "features": "list[str]"
})
  • 驱动:从 XPath/CSS 选择器 → 大模型语义提取
  • 抗页面变化:基于语义而非 DOM 路径,改版不挂
  • 反爬:AI 分析响应特征,自动调频率、换指纹、生成类人轨迹
  • 动态页:原生判断要不要等 JS 渲染,不用你手动 wait_for_selector

Firecrawl 那篇里有个数据挺说明问题:它把"搜索 → 抓正文 → 清洗 → 结构化输出"全链路包成一个 API,139K+ star,本质是爬虫的执行层还在,但"怎么抓"的决策权从人挪给了 LLM。Scrapling 也是同路数,63K star,主打自适应元素重定位和 Cloudflare 绕过。

⚠️ 但别神话:Agentic 爬虫目前在生产里稳定性仍不如 Scrapy 写死的规则流,尤其大规模并发时,"LLM 判断要不要渲染"这一步比 await page.goto()贵太多。300 个房产站爬虫的真实方案是混合——托管浏览器基建 + 自己的 agent controller + 严格 budget/timeout。


四、RPA 场景:从"替代双手"到"替代双手+脑"

RPA 的命门大家其实都知道——UI 一变就崩、非结构化数据进不来、异常判断做不了。举个真实例子:

供应商发票出现 3 处数据异常,2 处金额超 50 万,请分析原因并给处理建议,判断要不要通知采购。

这种事传统 RPA 完全哑火,它只会把发票字段对进 ERP。

Agent + RPA 目前三条主流融合路径:

  1. Agent 做决策节点,插在 RPA 流程里:RPA 抓合同文本 → Agent 读合同识风险 → 人/RPA 处理。渐进式改造,不用推翻存量。
  2. Agent 编排 RPA:人说"帮我完成 Q3 供应商对账,异常标红",Agent 自己拆——调 RPA 从 ERP 导付款、从合同系统导履约、Agent 比对、RPA 开工单、Agent 写摘要。
  3. 原生 Agent 平台:Agent 工具箱里直接带"调用 API / 操作文件系统 / 操作浏览器",RPA 只是其中一个可调用的 skill。

制造业供应链那个案例挺有说服力:RPA 抓订单录系统,Agent 根据库存+物流+客户动态分优先级、遇延迟自动触发补发。优合集团的邮件+单证场景,Agent+RPA 上线后单封邮件处理从 4 分钟压到 1 分钟以内。


五、Plan-Act-Reflect:Agent 比脚本多出来的那块"脑"

光说"Agent 更聪明"太虚,得拆开看它多出来的零件是哪几个。主流 Agent 框架(LangChain、LangGraph、AutoGen)共用一套内核:

🔹 Plan(规划)

Planner 先把任务拆成步骤列表——"1. 搜资料 2. 分析数据 3. 写报告",再交给 Executor 走。比 ReAct(Reasoning 和 Acting 交替、所有逻辑挤在一个 prompt 里)更适合长任务,因为全局计划一次生成,中间不必每步都让 LLM 重新想。

🔹 Act(工具调用)

LLM 不自己执行代码,它只输出"意图"——{tool: "search", query: "..."},宿主程序真去调搜索/DB/API。所以工具的 description 比实现更重要,LLM 是靠描述来决定"这步该用哪个扳手"的。

🔹 Reflect(反思)

执行完一步或一整轮,让 LLM 自己打分:score / passed / issues / suggestions。反思一般设上限 3 次——一鼓作气二而衰三而竭,第四次基本是形式主义,还没过就降级人工。更贵的做法是上 Critic Agent(另起一个 LLM 当评委),比自我反思狠,但多一次调用。

这三件套加一起,就是 Agent 和"写了 if-else 的 Python 脚本"的本质差:脚本的每一步是你定的,Agent 的每一步是它根据上一步的 Observation 推出来的


六、选型决策树(别什么都往 Agent 上堆)

这是最容易踩的坑——Agent 不是 RPA 2.0,也不是脚本替代品,它是给"波动大、异常多、长尾流程"准备的

选 Python 脚本 / Scrapy 当

  • 页面结构稳定、规则清晰
  • 高并发、成本敏感、要可预测 latency
  • 不需要判断,只要搬数据

选 RPA 当

  • 跨系统 UI 操作、没有 API
  • 流程稳定、高量重复(月末结账、发票录入)
  • 合规要求步骤全可追溯

选 Agent(或 Agent+RPA)当

  • 非结构化数据(邮件、合同、PDF、客服对话)
  • 异常多、规则每周变、长尾流程
  • 需要"理解+判断+决策",不只是搬运
  • 能接受前期搭建成本和偶尔的幻觉风险

混合是最现实的答案:稳定那段 RPA/脚本跑,判断那段 Agent 接,memory + guardrail + human-in-the-loop 兜住底线。企业里"Agent 取代 RPA"是伪命题,更像是"代理人 + 不同技能机器人才组成的马赛克流程"。

七、一点个人判断

到 2026 年这个节点,争论"Agent 和 RPA 谁赢"已经没意义了,分界在确定性问题 vs 探索性问题

  • 确定性(规则明、结构稳、量⼤)→ 脚本 / RPA 仍是 ROI 最优,别为了时髦换 Agent。
  • 探索性(要理解、要判断、路径不固定)→ 脚本写不动,RPA 硬写会变成维护地狱,Agent 才是正解。
  • 爬虫这个垂直里,Scrapy 不会死,但"写 XPath"这件事会死掉一半——新手爬虫以后直接自然语言 + schema 起步,老 Scrapy 项目会在"抗反爬 + 高并发"那一截继续活。
目录
相关文章
|
5天前
|
人工智能 定位技术 SEO
我学 GEO 第 15 天:终于知道AI GEO该如何做?
我是暴走的莉莉酱,边旅行边研究AI GEO的数字游民。专注普通人如何提升“AI可见度”——让AI在回答用户问题时准确识别、理解并推荐你。不讲玄学,只做可测、可调、可持续的GEO实践。
419 125
|
8天前
|
机器学习/深度学习 人工智能 调度
🐴 HappyHorse 1.1 现已上线阿里云百炼!快来查收模型使用指南,现在调用享 6 折~
HappyHorse 1.1 是新一代视频生成大模型,全面升级动态表现力、角色一致性、指令遵循、视觉质感与音画协同能力。支持I2V/T2V/R2V三类生成,适配短剧、电商广告、品牌营销等场景,提供高质、流畅、可控的AI视频生产力。
706 5
🐴 HappyHorse 1.1 现已上线阿里云百炼!快来查收模型使用指南,现在调用享 6 折~
|
5天前
|
缓存 人工智能 运维
阿里云618百炼大模型Qwen3.7-Max功能、免费试用、订阅计费、配置接入详解
Qwen3.7-MAX是阿里云百炼平台推出的通义千问3.7系列旗舰大语言模型,专为智能体时代复杂任务打造,依托阿里云全域算力与自研技术,在逻辑推理、长文本处理、代码工程、长周期自主执行等领域达到行业顶尖水平。2026年618期间,该模型推出多重免费试用权益、按量计费5折、订阅套餐优惠等专属福利,覆盖个人开发者、团队与企业全场景需求,以下从核心功能、免费试用、订阅计费、配置接入四方面展开详细解析。
410 123
|
3天前
|
人工智能 自然语言处理 API
阿里云Token Plan团队版解析:功能、三档套餐与省钱订阅指南
阿里云百炼平台推出的Token Plan团队版,是面向企业与团队的AI大模型订阅服务,以Credits为统一计量单位,整合文本与图像生成模型,提供团队管理、数据安全、多工具兼容等核心能力,解决团队零散订阅AI服务的管理混乱、成本失控、数据安全等痛点。本文将从核心定位、套餐详情、计费规则、团队管理、工具兼容、便宜订阅技巧等方面,全面解析Token Plan团队版,帮助企业与团队高效、低成本地使用AI服务。
305 108
|
4天前
|
存储 人工智能 数据可视化
别再手动复制 Skill 了:多 Agent 时代的 Skill 管理方案
多 Agent 场景下 Skill 的统一管理与同步。
252 125
|
18天前
|
缓存 测试技术 API
Qwen 3.7 Plus 与 Max 实测:性价比与多模态能力差异解析(2026)
2026 年 6 月 1 日,阿里悄无声息地发布了 Qwen 3.7 Plus,距 Qwen 3.7 Max 上线刚好 11 天。同样的 1M 上下文,同样的 35 小时自治上限。但价格才是头条:Plus 是 0.40/M输入,Max是 2.50/M——便宜约 6 倍——并且还能看图、看视频。Vision Arena 上 Plus 已经排到 #16。所以这周真正值得讨论的问题不是”要不要为视觉能力买单”,而是”Max 凭什么用 6 倍价格换来 2 个百分点的 benchmark 领先”。
|
12天前
|
缓存 人工智能 运维
GLM 5.2自托管全流程实战:硬件选型、vLLM/SGLang部署与成本盈亏测算
2026年智谱发布GLM 5.2超大混合专家模型,区别于以往仅开放API的闭源大模型,该模型权重以MIT开源协议对外发布,企业与开发者可完整下载、本地审计、私有化部署,实现数据不出环境、自定义微调、自主调度推理资源。GLM 5.2拥有753B总参数,原生支持百万级上下文窗口,在代码生成、长文档推理、数学逻辑等多项基准测试中对标国际顶尖商用模型,是首款可完整自托管的前沿代码向大模型。
924 0
|
13天前
|
Linux 程序员 数据格式
【2026最新】Notepad++下载、安装和使用一篇搞定(附中文版安装包)
Notepad++ 是一款免费开源、轻量高效的 Windows 文本编辑器,支持 C/Python/HTML 等 80+ 语言语法高亮、代码折叠、正则替换、编码转换及插件扩展,专为程序员与文本处理用户打造,完美替代系统记事本。(239字)