法律场景智能体 — 实战手册

实战手册 · 领域实战手册

法律场景智能体。

电子取证、合同审阅、引文核查——法律智能体已经能跑的地方、它们会幻觉的地方，以及不同法域下需要的人工监督。法律是这样一个领域：智能体那个有据可查的失败模式——自信地伪造引文——已经引发了真实的执业纪律处分和公开的庭审尴尬。高产区是真实存在的，但失败模式是结构性的，单靠一个更好的提示词解决不了。

STEP 1

法律智能体今天已经能跑的活儿。

有三类工作如今稳定地能自我证明：

电子取证——大规模文档分类：是否特免、是否响应、是否相关。智能体处理体量，人去复核那堆难啃的。这是法律 ML 应用里历史最久的一类高产场景，现代智能体只是延伸了它，并未改动监督模式。
合同审阅——对照公司剧本抽取条款、标出偏差、针对对方批注起草红线。智能体把不寻常之处摊出来；执业律师决定哪些要争。
引文核查——核验所引判例是否存在、引用是否指向正确的裁判、所引段落是否真的支持被引用的命题。这或许出人意料地，是智能体能为法律工作所做的杠杆率最高的一件事——它直接对冲了下文那个失败模式。

模式同样是：体量活进来，结构化异常出去，关键决策上有一位持牌律师。

STEP 2

它们会在哪儿幻觉。

有三种失败模式至今已经记录得足够充分，应当作针对性的设计防御：

引文伪造。模型给出一个看似可信的案件名、法院、年份、判例汇编卷次——可这个案件并不存在。美国已有多起法院对提交含此类虚假引文的诉状的律师作出处分；这种失败模式在各家供应商、各代模型之间都有稳健的复发。结构性的防御是"仅输出经核验的引文"，由生成后的步骤对照权威数据库强制执行——而不是在提示词里写一句「不要幻觉」。
案件摘要捏造。即便案件真实，摘要也可能与裁判要点不符。智能体可能自信地断言一个被引判决其实并不支持的命题。
对陌生或非美国法域的虚假自信。训练覆盖并不均匀；模型对它几乎没见过的法域，可能与它见过很多的法域一样流利地开口。

"仅输出经核验的引文"是对付伪造权威的唯一结构性防御。提示词里写「不要捏造判例」不管用；在那些尝试过这条路的律所里，这种回归已经在生产环境中发生过。每一条引文都必须能与一个真实、现行的法律数据库往返核验，未匹配的引文必须丢弃或标记——绝不能默不作声地保留。

STEP 3

不同法域下的监督——只给原则性表达。

"对 AI 工具的充分监督"具体指什么，因法域而显著不同。诚实的提法是泛化的：

美国。各州律协的规则约束着胜任代理义务，多数州律协已就生成式 AI 的使用发布过指引；多个美国法院如今要求在诉讼文书中披露 AI 的辅助使用，并已有数起对未经核验的 AI 生成引文作出处分的案例。
英国。SRA 已就事务律师负责任地使用 AI 发布指引；勤勉义务与监督义务原样适用。
欧盟。由各国律协设定行为规则，欧盟《人工智能法案》则为符合其定义的法律科技产品再叠加一层。

未经核实之前，不要乱引具体的案件号、律协意见编号或指令引文——一处错误引用在「法律智能体」这种文章里，结构上比不引用更糟。一条无处不适用的总原则是：持牌律师对自己提交的内容始终负责，工具的产出不会替你转嫁这份责任。

STEP 4

自研还是采购。

成熟的法律科技供应商（Westlaw / Lexis 家族、Harvey、Casetext）已在引文核查所需的"权威数据库主干"上做了投资。一个直接接入权威数据库的内部智能体，在具体工作流上可以与它们打平；但一个不接入数据库、让模型靠"记得"判例而不是查询判例的内部智能体，结构上就站在那个引文失败模式的错误一侧。

当工作流是律所专属的（你的剧本、你的先例、你的案件分类法）、且引文走真实数据库时，适合自研；当供应商的数据库就是护城河时，适合采购。不要从零自研"法律研究"功能在一个没有数据库主干的通用模型之上——那正是产出过那些被处分诉状的路径。

STEP 5

上线的最低门槛。

在法律智能体接触到律师或客户之前，你欠自己几个答案：

智能体任意产出中的每一条引文，是否都与一个权威法律数据库做了往返核验？未匹配的引文是否被丢弃或标记交人复核？
提交到法庭、监管机构或客户的任何工作产物，是否都有持牌律师签字，且其身份与智能体的身份分别记录？
审计日志是否足以事后重建——智能体当时究竟能访问什么、它产出了什么？参见审计轨迹。
你是否盘点过产出会落到哪些法域？对各法域的"AI 披露"规则是否都有站得住脚的答案？
急停开关是否真的存在——按案件、按律所、以及全局——并且做过演练，而不止是写在文档里？

与研究智能体那篇所讲的模式在这里以更强的形式适用：一处伪造权威即可让整份工作产物作废。先把"经核验引文"的主干建起来，其余一切都在它的下游。