用大白话讲评测

B10

概念 · 核心构件

用大白话讲评测。

评测是你针对自己任务运行的一个小而可信的记分牌——为何公开基准不够用，以及一个有用的评测集长什么样。本篇是批判地阅读基准的补充：那一篇教你怀疑公开数字；这一篇教你拿什么去顶替它们。

STEP 1

评测到底是什么。

剥掉术语，一项评测就是三件事的列表，反复跑：

一个输入——一段提示词、一份文档、一句任务描述、一次工具调用请求。
一个预期行为——什么算好的响应：正确的答案、正确的动作、正确的形状。
一条评分规则——你（用代码或用人）如何决定模型产出的东西匹不匹配那个预期。

就这样。一个评测集就是许多这样的三元组，丢到同一个模型（或智能体）跑一遍，结果聚合成一个分数。分数是你的记分牌；集合是你的检测台；整件事，就是用一种你可以反复跑的形式，把"好"对你的任务到底意味着什么写下来。能用代码描述成功，就能写评测。如果根本描述不出来，那你还没有一个被定义清楚的任务——你面对的是另一个问题。

评测之所以管用，跟单元测试管用的理由一样：一个小而可重复、可自动化的信号，胜过一个大而有损、依赖人工的信号。模型变好或变坏，你的记分牌告诉你是哪一种。

STEP 2

为何公开基准不够用。

挑一个在 MMLU 或 LMSYS 竞技场榜首的模型、然后宣布"搞定了"，听起来很顺。但这会因四个相互叠加的原因而失败：

它们测的是代理任务。MMLU 测的是各种小知识；竞技场测的是"多数用户更喜欢哪个答案"。两者都不是你的客服分类器、你的合同条款抽取器、或你的代码评审智能体。一个模型可以在代理任务上拿满分，对你仍然不对。
饱和。一旦一个基准被攻克，所有前沿模型都打 ~95%，差距全都消失在噪声里。当一组模型对同一道题都答"是"时，你没法靠这个挑出谁。
污染。有名的基准会渗进训练数据。高分可能反映的是记忆，而非能力。基准越新、越冷门，信号越干净——而这恰恰是你自己的私有集天然具备的性质。
选择偏差。厂商基准表格挑选了提示词、测评框架、对比基线。它适合做一种主张，做不了一次审计。

这不是说公开基准毫无用处——它们很适合选短名单。但一旦决策变成"我到底上哪个模型"，唯一算数的数字就是你自己那套评测集跑出来的。这个论证的完整版本在批判地阅读基准里；此处的结论只一条：别把决策外包给排行榜。

STEP 3

一个有用的评测集长什么样。

第一次造评测集的人最容易犯的错，就是奔着体量去。他们抓 1 万个样例、写一段笼统的 LLM-as-judge 提示词，然后纳闷为什么分数飘得到处都是、什么也告诉不了他们。一个有用的评测集恰好反过来：

小。10 到 100 个就够开局。20 个你逐个看过、能讲清楚的样例，能比 2000 个你从没读过的告诉你更多。
贴你的任务。从你真实流量里造、从你真实客户里造、从你真实的边界情形里造。通用评测套件只能测出通用的东西。
评分要么便宜，要么至少可重复。最好：代码可校验的规则（精确匹配、正则、schema 校验、工具调用断言）。次好：一个评分量表收紧、模型版本钉死的 LLM 评判者。最差但有时也行：人工抽样审查。
至少留一个简单样例。一个本该轻松通过的"心跳检查"——如果它都挂了，那是你的测评框架坏了，不是你的模型。
至少留一个困难样例。一个你以前修过的已知差例，作为回归目标保留。哪天某次模型发布悄悄把它打回原形，你的记分牌会告诉你。

十个贴身的样例胜过一千个通用的。如果你说不出某个样例为什么待在你的集合里，那它就不该在你的集合里。样例的质量盖过数量；一份噪声大的 1000 案例记分牌，做的决策比一份锐利的 20 案例记分牌更糟。

STEP 4

在线 vs 离线，以及接下来读什么。

有一个区分值得从本篇带走：离线评测跑在一个精心整理的集合上，类似 CI 循环——你控制输入、你知道预期输出、你在上线前跑。在线评测跑在真实生产流量上——你事先并不知道正确答案，所以你测代理指标（解决率、用户点赞、下游转化、被覆盖率）。两者你都需要。离线评测在上线前接住回归；在线评测告诉你系统对用户是否真的有效。它们彼此不替代。

"为何评估智能体特别难"的深入版本——非确定性、多步误差复合、没有单一标准答案、路径依赖、评测成本、数据集腐烂——在 Operations · 为什么评估智能体很难。把评测集编进开发循环的实务（CI 关卡、黄金轨迹、生产到评测的飞轮）在评估驱动的智能体开发。按这个顺序读。