金融场景智能体 — 实战手册

实战手册 · 领域实战手册

金融场景智能体。

智能体在金融场景真正能创造价值的地方——对账、研报合成、KYC 审核——以及它们必须背着的硬性约束（审计、确定性、可供监管审阅的轨迹）。金融是这样一个领域：最坏情况不是某天用户体验糟糕，而是一封监管机构勒令发出的违规通告，以及横跨好几个季度的整改。让金融看起来"无聊"的那些约束——可审计、确定性、职责分离——恰恰是你的智能体在动到任何会产生分录的东西之前，必须先内化的那些约束。

STEP 1

今天金融智能体真正创造价值的几个岗位。

有三类活儿稳定地能自我证明：

对账——跨系统匹配交易（银行流水对总账、子账对总账、券商成交回报对内部交易簿）。智能体把异常摊出来，并提出调整建议；由人来批准过账。
研报合成——基于披露文件、业绩电话会逐字稿、券商研究的分析师式纪要生成。产出是给人工分析师的草稿，而不是对外发布的观点。
KYC / 开户审核——文档抽取、制裁名单比对、受益所有权穿透、把异常标出来交人去查。智能体把分析师一小时的工作压缩到几分钟；签字的仍是分析师。

这三件事的模式是一致的：智能体处理体量活，给出一份结构化的异常或草稿；关键决策上有人。这同时也是出事第二天早上，你能向监管机构站住脚的那种自主姿态。

STEP 2

金融智能体不该出现的几个地方。

有三个地方，无论 demo 看起来多漂亮，都该避开：

高频或延迟敏感的交易。那里唯一重要的事，由确定性、微秒级有界的系统压倒性地胜过 LLM。
没有人在回路的受信责任型建议。个性化投资建议、适当性评估、自由裁量的资产管理决策，都处在以"由持牌的人作出"为前提的受信责任制度之下。智能体可以起草，但建议必须由人持有。
影响客户的最后一公里入账。交易执行、支付放款、销户——任何动钱或动状态的事——都该是智能体提议、由人授权的一次工具调用；除非你已经有多年的审计级证据可以反驳这一点，否则别动。

一个没有持牌人签字就给出个性化受信建议的智能体，不是一个聪明的产品特性，而是一桩在路上的合规事件。把受信责任的接触面默认设为受控关卡，把人在回路的设计在上线之前就嵌进去，而不是在投诉到来之后才补。

STEP 3

不可让步的硬约束：审计、确定性、可供监管审阅的轨迹。

有三条约束贯穿任何金融用例，你也没得讨价还价：

完整审计轨迹。每一次 prompt、每一次工具调用、每一份检索到的文档、每一个模型版本、每一个决策——都带时间戳记录下来，并与作出动作的智能体身份绑定。审计师的提问是「把影响过这笔入账的所有东西摊给我看」；你的系统必须能当场回答。可参见审计轨迹。
能拿到的确定性，全都要拿。每个发布版本冻结模型版本；任何分类或抽取场景把温度钉死（通常为零）；结构化输出严格遵循 schema；提示缓存友好，相同输入跨次运行能产出相同输出。输出上的方差，就是你账面上的方差。
可供监管审阅的解释。不是原始思考链——那是一份有说服力的叙事，不是经过验证的因果——而是一份结构化的「我们为什么做了 X」：检索到的证据、被触发的规则、被越过的阈值、签字的人。监管者应该能不读散文就读完这份解释。

STEP 4

认清你所在法域的监管者，并诚实地称呼它们。

你可能要向谁交代，取决于你做什么、在哪做：

美国券商-交易商面向 FINRA 与 SEC 负责；相关的监管制度比智能体早得多，却整套适用于任何会影响面向客户决策的东西。
英国金融服务业面向 FCA 负责，行为准则把"对结果负责"的板子打在公司——而不是模型供应商——身上。
新加坡在 MAS 之下；欧盟的公司还要额外面对叠加在既有金融服务规则之上的运营韧性与人工智能专项制度。

没有核实过的具体指令号或金额，不要乱引——金融文章里一处错引比不引更糟。诚实的提法是「多数法域的监管者要求 X」加上一个真实的监管者举例，再把更大的图景指到监管全景这篇文章去看。

STEP 5

上线的最低门槛。

在金融智能体接触到面向客户或入账的接触面之前，你欠自己几个答案：

审计日志能否端到端地重建任一具体决策，包括模型版本与检索到的证据？
每一个有后果的产出上，是否都有一份留档的人工批准，且批准人的身份与智能体身份分别保存？
如果模型被替换，那些确定性接触面（抽取、分类、结构化输出）能否在前一版本所记录的输入上复现？
解释日志读起来是合规官能站住脚的证据，还是只是关于智能体推理过程的市场宣传？
是否有一个能针对单个客户、单个租户、以及全局停下智能体的急停开关，并在最近一个季度演练过？

只要有一项答案是"还没到"，那"能上线吗？"的答案就也是"还没到"。金融是少数几个领域：上线之后再补硬约束，结构上比一开始就把它们建出来要贵得多。