评测首先是认识论问题

评测界最危险的幻觉，是把表格当成现实。

表格只记录你选择看见的东西。

核心判断

评测的第一问题不是「指标怎么归一化」，而是：

我们凭什么相信，这次改动在真实任务分布上更好，而不是在测试集捷径上更好？

这是认识论，不是 Excel 技巧。

任何评测都在偷偷回答三个问题：

若三问悬空，分数越精致，误信的包装越体面。

流畅度冒充正确性：语言模型擅长听起来对；评测若只看表面连贯，会把胡诌训成「优秀」。

Cherry-picking：三组漂亮 demo 不是证据，是营销。

单指标暴政：真实目标多维且冲突；强行压成 one number，必诱发 Goodhart 行为。

不可复现的一次胜利：随机种子、提示微扰、检索库版本一变，结论翻转——说明证据链还没立住。

观察从来不是中立的：你量什么，世界就对你长什么样。

评测集设计是负载最高的理论选择。

当提升在预注册的探针上稳定复现，且已知捷径被主动尝试过仍成立——再开香槟。

没有认识论意识的评测，最后只会把感觉做成表格。

下一次汇报前，先问：若对手团队想证明我们「没进步」，他们最容易从哪条采样偏见下手？把那条偏见写成你要补的实验，而不是写进 PPT 脚注。