评测首先是认识论问题

分数回答不了「我们凭什么相信变好」;没有证据结构,评测只是把直觉做成仪表盘。

· Shuai · 4 分钟阅读
分数回答不了「我们凭什么相信变好」;没有证据结构,评测只是把直觉做成仪表盘。

评测界最危险的幻觉,是把表格当成现实

表格只记录你选择看见的东西

核心判断

评测的第一问题不是「指标怎么归一化」,而是:

我们凭什么相信,这次改动在真实任务分布上更好,而不是在测试集捷径上更好?

这是认识论,不是 Excel 技巧。

为什么这是认识论

任何评测都在偷偷回答三个问题:

  1. 本体:我们声称在测量什么构念(正确性?有用性?安全性?)。
  2. 表征:手头样本与失败类型,能否代表上线后世界。
  3. 证据强度:观察到的差异是否跨越噪声与选择偏差,足以更新信念。

若三问悬空,分数越精致,误信的包装越体面。

AI 系统最常踩的四类坑

流畅度冒充正确性:语言模型擅长听起来对;评测若只看表面连贯,会把胡诌训成「优秀」。

Cherry-picking:三组漂亮 demo 不是证据,是营销

单指标暴政:真实目标多维且冲突;强行压成 one number,必诱发 Goodhart 行为。

不可复现的一次胜利:随机种子、提示微扰、检索库版本一变,结论翻转——说明证据链还没立住。

跨域锚:科学哲学里的「理论负载」

观察从来不是中立的:你量什么,世界就对你长什么样

评测集设计是负载最高的理论选择

更稳的流程:先证据结构,后面板

  1. 写清目标陈述(用户成功态是什么,失败代价最高的是什么)。
  2. 列失败拓扑:哪类错不能接受(幻觉、隐私泄露、工具误用、歧视……),每类要有独立探针
  3. 分层采样:简单/边界/对抗/长尾——平均值专骗负责人。
  4. 固定复现包:模型版本、提示、工具、检索快照、随机种子——否则你在比较天气。

何时可以相信「提升了 X%」

当提升在预注册的探针上稳定复现,且已知捷径被主动尝试过仍成立——再开香槟。

一句话结论

没有认识论意识的评测,最后只会把感觉做成表格

下一次汇报前,先问:若对手团队想证明我们「没进步」,他们最容易从哪条采样偏见下手?把那条偏见写成你要补的实验,而不是写进 PPT 脚注。

返回博客
世界模型先于提示词

世界模型先于提示词

提示词修的是表面句法;对象、边界与关系没站稳时,你只是在精致地猜。先画世界,再写话。

Harness 真正改变了什么

Harness 真正改变了什么

Harness 的价值不在“把模型接起来”,而在把评测、回归、约束与迭代变成可重复的系统。

约束比聪明更重要

约束比聪明更重要

能力放大方向;方向错了,聪明只是加速偏航。对齐=目标可裁判+代价硬约束+熔断,不是更听话。