法律场景智能体

Y9
实战手册 · 领域实战手册

法律场景智能体。

电子取证、合同审阅、引文核查——法律智能体已经能跑的地方、它们会幻觉的地方,以及不同法域下需要的人工监督。法律是这样一个领域:智能体那个有据可查的失败模式——自信地伪造引文——已经引发了真实的执业纪律处分和公开的庭审尴尬。高产区是真实存在的,但失败模式是结构性的,单靠一个更好的提示词解决不了。

STEP 1

法律智能体今天已经能跑的活儿。

有三类工作如今稳定地能自我证明:

  • 电子取证——大规模文档分类:是否特免、是否响应、是否相关。智能体处理体量,人去复核那堆难啃的。这是法律 ML 应用里历史最久的一类高产场景,现代智能体只是延伸了它,并未改动监督模式。
  • 合同审阅——对照公司剧本抽取条款、标出偏差、针对对方批注起草红线。智能体把不寻常之处摊出来;执业律师决定哪些要争。
  • 引文核查——核验所引判例是否存在、引用是否指向正确的裁判、所引段落是否真的支持被引用的命题。这或许出人意料地,是智能体能法律工作所做的杠杆率最高的一件事——它直接对冲了下文那个失败模式。

模式同样是:体量活进来,结构化异常出去,关键决策上有一位持牌律师。

STEP 2

它们会在哪儿幻觉。

有三种失败模式至今已经记录得足够充分,应当作针对性的设计防御:

  • 引文伪造。模型给出一个看似可信的案件名、法院、年份、判例汇编卷次——可这个案件并不存在。美国已有多起法院对提交含此类虚假引文的诉状的律师作出处分;这种失败模式在各家供应商、各代模型之间都有稳健的复发。结构性的防御是"仅输出经核验的引文",由生成后的步骤对照权威数据库强制执行——而不是在提示词里写一句「不要幻觉」。
  • 案件摘要捏造。即便案件真实,摘要也可能与裁判要点不符。智能体可能自信地断言一个被引判决其实并不支持的命题。
  • 对陌生或非美国法域的虚假自信。训练覆盖并不均匀;模型对它几乎没见过的法域,可能与它见过很多的法域一样流利地开口。

"仅输出经核验的引文"是对付伪造权威的唯一结构性防御。提示词里写「不要捏造判例」不管用;在那些尝试过这条路的律所里,这种回归已经在生产环境中发生过。每一条引文都必须能与一个真实、现行的法律数据库往返核验,未匹配的引文必须丢弃或标记——绝不能默不作声地保留。

STEP 3

不同法域下的监督——只给原则性表达。

"对 AI 工具的充分监督"具体指什么,因法域而显著不同。诚实的提法是泛化的:

  • 美国。各州律协的规则约束着胜任代理义务,多数州律协已就生成式 AI 的使用发布过指引;多个美国法院如今要求在诉讼文书中披露 AI 的辅助使用,并已有数起对未经核验的 AI 生成引文作出处分的案例。
  • 英国。SRA 已就事务律师负责任地使用 AI 发布指引;勤勉义务与监督义务原样适用。
  • 欧盟。由各国律协设定行为规则,欧盟《人工智能法案》则为符合其定义的法律科技产品再叠加一层。

未经核实之前,不要乱引具体的案件号、律协意见编号或指令引文——一处错误引用在「法律智能体」这种文章里,结构上比不引用更糟。一条无处不适用的总原则是:持牌律师对自己提交的内容始终负责,工具的产出不会替你转嫁这份责任。

STEP 4

自研还是采购。

成熟的法律科技供应商(Westlaw / Lexis 家族、Harvey、Casetext)已在引文核查所需的"权威数据库主干"上做了投资。一个直接接入权威数据库的内部智能体,在具体工作流上可以与它们打平;但一个不接入数据库、让模型靠"记得"判例而不是查询判例的内部智能体,结构上就站在那个引文失败模式的错误一侧。

当工作流是律所专属的(你的剧本、你的先例、你的案件分类法)、且引文走真实数据库时,适合自研;当供应商的数据库就是护城河时,适合采购。不要从零自研"法律研究"功能在一个没有数据库主干的通用模型之上——那正是产出过那些被处分诉状的路径。

STEP 5

上线的最低门槛。

在法律智能体接触到律师或客户之前,你欠自己几个答案:

  • 智能体任意产出中的每一条引文,是否都与一个权威法律数据库做了往返核验?未匹配的引文是否被丢弃或标记交人复核?
  • 提交到法庭、监管机构或客户的任何工作产物,是否都有持牌律师签字,且其身份与智能体的身份分别记录?
  • 审计日志是否足以事后重建——智能体当时究竟能访问什么、它产出了什么?参见审计轨迹
  • 你是否盘点过产出会落到哪些法域?对各法域的"AI 披露"规则是否都有站得住脚的答案?
  • 急停开关是否真的存在——按案件、按律所、以及全局——并且做过演练,而不止是写在文档里?

研究智能体那篇所讲的模式在这里以更强的形式适用:一处伪造权威即可让整份工作产物作废。先把"经核验引文"的主干建起来,其余一切都在它的下游。