浏览器智能体。
把一个真实浏览器当工具来驱动——DOM 与像素两种观察方式、登录与认证状态、踩烂了的失败模式,以及何时该升级到完整 GUI 智能体。浏览器恰好处在一个有用的中等海拔:比完整的计算机操作智能体窄,比裸 HTTP 宽。"在 Web 上做点事的智能体"这类用例多半住在这里,多数回归也住在这里。
"把浏览器当工具"是一块独立的接触面。
浏览器智能体通过编程外壳(Playwright、Puppeteer、CDP)驱动 Chrome、Firefox 或它们的无头版本。它和通用的计算机操作智能体不是同一个问题:外壳同时把 DOM、导航事件、网络日志和截图能力放在一处给你。它也不等同于 HTTP 脚本:cookie、JavaScript 状态、OAuth 重定向、SPA 路由都不用你操心。
这个中等海拔正是浏览器智能体高产区如此宽广的原因——结账流程、面板抓取、门户操作、"登录并下载我的数据"这类任务都在此列。它也是失败模式格外鬼祟的原因:页面看起来是一份人类可读的页面,但智能体操作的,是一个每次发版都会在它脚下漂移的结构。
DOM 与像素两种观察方式,以及最终胜出的混合形态。
知道页面上有什么,有两条路径:
- 可访问性树 / DOM 观察——语义化、可寻址,对一次保留元素角色的改版相当稳健。以 ARIA 角色为目标的选择器("名为「提交」的按钮")能挺过多数装饰性改版;以生成的类名为目标的选择器,每次部署都会断。
- 像素 / 截图观察——任何页面都适用,包括 canvas 渲染的界面、外壳到不了的 iframe、以及对 DOM 进行激进混淆的页面。对版式漂移、DPI、广告引发的回流则很脆弱。
多数生产级的浏览器智能体把两者结合起来。可访问性树是主要观察来源;截图用来做验证("那次点击真的跳页了,还是我点空了?")。这个混合模式与计算机操作智能体里讲的一致,只是 DOM 给你一个仅靠像素的智能体没有的稳定起点。
能用可访问性树选择器就别用 CSS 类名选择器。用"可见角色 + 可访问名称"构建的选择器能挺过改版;构建在 .btn-primary-3f1a2 上的选择器挺不过。一个把选择器绑死在生成类名上的浏览器智能体,就是一张待付的维护账单。
登录与会话状态,占了这项工作的一半。
多数值得做的浏览器智能体任务,都要先登录。三种模式:
- 持久化档案。智能体使用一个长期存活、保留 cookie 的浏览器档案。简单,但会话存在于"每次请求"的作用域之外——只要智能体在任意时刻被攻破,这份档案里所有已认证的接触面都触手可及。
- 带受委托凭证的临时会话。智能体收到一枚短期令牌(OBO 形式,或一份即时签发的会话 cookie),在一个跑完即销毁的全新档案里运行。摩擦更大,但爆炸半径更小。
- 实时人工认证。对带 MFA 的接触面,智能体暂停并把挑战推给一个人,由人完成。智能体永远不接触第二要素。
这与沙箱与安全执行的模式一致:把凭证作用域限死,把智能体的运行时当作攻击面来设防。一个在长寿命档案里持有管理员级 cookie 的浏览器智能体,就是一桩在路上的凭证窃取事件。
踩烂了的几种失败模式。
只要你上线浏览器智能体,下面这些迟早全都会撞上。提前为它们布局,不要每次都惊讶:
- 无限滚动陷阱。智能体以为自己在翻页;页面其实在无限加载下一段。把滚动设上限,加一个"无新内容"探测器,然后停下。
- 验证码墙。正确答案几乎从来不是"让智能体去解"。正确答案是"推给人,或者换一种集成方式"。
- iframe 与 shadow DOM 边界。很多外壳默认不会跨越它们。一次"理应生效"的点击落在了父文档上,什么也没发生。
- 广告与同意弹窗。它们随机出现、抢焦点、外观又恰好像真界面,容易把智能体绕进去。把它们当作已知的前置步骤:探测、关闭、然后继续。
- 重定向循环与 SPA 路由。URL 变了,DOM 没重新渲染,可访问性树的快照已经过期。导航之后立即重新观察,不要靠固定节拍。
这里的每步可靠性,比 API 驱动的工作更要紧——一个 30 步的浏览器流程,每步 97% 的成功率,最终成功率勉强超过三分之一。幂等步骤、检查点、以及"卡死循环"探测器(连续 N 回合 DOM 哈希一致则跳出),都是不可省的。
什么时候该升级到完整的 GUI 智能体。
浏览器在三种情形下不再够用:
- 原生操作系统对话框。「另存为」或系统权限提示位于浏览器沙箱之外;浏览器智能体的外壳够不到那里。计算机操作智能体可以。
- 跨非浏览器应用的多窗口协同。若工作流牵涉桌面邮件客户端、本地 PDF 查看器或 Citrix 会话,浏览器只是众多窗口之一。
- DOM 结构性不可用的有强防御页面。重度混淆、纯 canvas 渲染、激进反自动化等,会把你整体压到 DOM 海拔之下。
即便如此,凡是在浏览器里就能跑的部分,仍优先用浏览器;只对那些真正必须的步骤伸手去拿完整的计算机操作能力。计算机操作那篇讲过的"仅像素操作的延迟与可靠性税",在这里原样适用;浏览器之所以更便宜,正因为它更窄。