AI 对齐与工程 · 测试与验收对齐

没有证据闭环，所谓改进只是感觉更好

测试不是收尾，是系统咋证明自己做对了。AI 工程里常缺的不是测试多，是测试能不能代表真目标、盖住关键翻车、帮团队更新判断。

概念地图

先定完成标准，再写实现

E2E 看路径，ATDD 看验收，表格测边界，契约测接口，回归守历史，评测 harness 管 AI 表现——各管一层证据。

E2E

用户路径级证据：单点都对、全链路仍可能失败，用真实操作序列检验。

ATDD

先写验收标准，需求、测试、实现围绕同一组完成条件协作。

TDT（表格驱动测试）

输入、上下文、期望输出打成表，边界条件别全靠脑补。

Contract Test

接口契约固定结构、字段、语义，避免上下游各自通过、一集成即炸。

Regression Suite

把已付过学费的 bug 写进回归集，别让同一类错误反复进门。

Evaluation Harness

目标、观测、失败类型、阈值组成评测闭环，AI 表现别只靠感觉争论。

总在争「有没有变好」——常见原因是证据结构不对，或完成标准写得太晚。

分数回答不了「我们凭什么相信变好」；没有证据结构，评测只是把直觉做成仪表盘。

能力放大方向；方向错了，聪明只是加速偏航。对齐=目标可裁判+代价硬约束+熔断，不是更听话。