评测首先是认识论问题
分数回答不了「我们凭什么相信变好」;没有证据结构,评测只是把直觉做成仪表盘。
· Shuai · 4 分钟阅读
评测界最危险的幻觉,是把表格当成现实。
表格只记录你选择看见的东西。
核心判断
评测的第一问题不是「指标怎么归一化」,而是:
我们凭什么相信,这次改动在真实任务分布上更好,而不是在测试集捷径上更好?
这是认识论,不是 Excel 技巧。
为什么这是认识论
任何评测都在偷偷回答三个问题:
- 本体:我们声称在测量什么构念(正确性?有用性?安全性?)。
- 表征:手头样本与失败类型,能否代表上线后世界。
- 证据强度:观察到的差异是否跨越噪声与选择偏差,足以更新信念。
若三问悬空,分数越精致,误信的包装越体面。
AI 系统最常踩的四类坑
流畅度冒充正确性:语言模型擅长听起来对;评测若只看表面连贯,会把胡诌训成「优秀」。
Cherry-picking:三组漂亮 demo 不是证据,是营销。
单指标暴政:真实目标多维且冲突;强行压成 one number,必诱发 Goodhart 行为。
不可复现的一次胜利:随机种子、提示微扰、检索库版本一变,结论翻转——说明证据链还没立住。
跨域锚:科学哲学里的「理论负载」
观察从来不是中立的:你量什么,世界就对你长什么样。
评测集设计是负载最高的理论选择。
更稳的流程:先证据结构,后面板
- 写清目标陈述(用户成功态是什么,失败代价最高的是什么)。
- 列失败拓扑:哪类错不能接受(幻觉、隐私泄露、工具误用、歧视……),每类要有独立探针。
- 分层采样:简单/边界/对抗/长尾——平均值专骗负责人。
- 固定复现包:模型版本、提示、工具、检索快照、随机种子——否则你在比较天气。
何时可以相信「提升了 X%」
当提升在预注册的探针上稳定复现,且已知捷径被主动尝试过仍成立——再开香槟。
一句话结论
没有认识论意识的评测,最后只会把感觉做成表格。
下一次汇报前,先问:若对手团队想证明我们「没进步」,他们最容易从哪条采样偏见下手?把那条偏见写成你要补的实验,而不是写进 PPT 脚注。