AI 对齐与工程 · 测试与验收对齐

没有证据闭环,所谓改进只是感觉更好

测试不是收尾,是系统咋证明自己做对了。AI 工程里常缺的不是测试多,是测试能不能代表真目标、盖住关键翻车、帮团队更新判断。

概念地图

先定完成标准,再写实现

E2E 看路径,ATDD 看验收,表格测边界,契约测接口,回归守历史,评测 harness 管 AI 表现——各管一层证据。

E2E

用户路径级证据:单点都对、全链路仍可能失败,用真实操作序列检验。

ATDD

先写验收标准,需求、测试、实现围绕同一组完成条件协作。

TDT(表格驱动测试)

输入、上下文、期望输出打成表,边界条件别全靠脑补。

Contract Test

接口契约固定结构、字段、语义,避免上下游各自通过、一集成即炸。

Regression Suite

把已付过学费的 bug 写进回归集,别让同一类错误反复进门。

Evaluation Harness

目标、观测、失败类型、阈值组成评测闭环,AI 表现别只靠感觉争论。

先看证据为什么会失真

返回 AI 对齐与工程 »

总在争「有没有变好」——常见原因是证据结构不对,或完成标准写得太晚。

约束比聪明更重要

约束比聪明更重要

能力放大方向;方向错了,聪明只是加速偏航。对齐=目标可裁判+代价硬约束+熔断,不是更听话。