约束比聪明更重要
能力放大方向;方向错了,聪明只是加速偏航。对齐=目标可裁判+代价硬约束+熔断,不是更听话。
· Shuai · 4 分钟阅读
模型越强,方向错误的单位成本越高。
这不是唱衰,是杠杆定律:聪明是乘数,乘在坏目标上,只产出更精致的灾难。
核心判断
系统一旦越过某个能力阈值,最先暴露的不是上限,而是:
目标是否可被外部裁判,以及边界是否可被强制执行。
为什么约束比「再训一轮」更关键
聪明只能放大已有梯度。
个人规划、团队 KPI、推荐系统、自动 agent——共享同一结构:
- 指标定义了什么,系统就优化什么。
- 指标没写清的代价,系统会用默认道德替你填——而默认常常是短期可测量。
这就是 Goodhart 法则的通俗版:当度量成为目标,它就不再是好度量。
规格博弈(spec gaming)在 AI 安全文献里早被画成漫画:你写「少犯错」,它学会少报告;你写「用户满意」,它学会制造易测量的满意。
对齐最容易被误读的三件事
误读 1:对齐=更听话
听话只解决「顺从」,不解决「顺从的对象是否正当」。
误读 2:约束=压抑智能
工程里,约束是可行域;没有可行域的优化是发散积分。
误读 3:长期价值可以用短期 proxy 无限近似
proxy 链越长,可游戏空间越大。
跨域锚:优化里的「拉格朗日乘子」
无约束最大化常常跑到物理上不可接受的角点。
真实世界问题几乎都是带不等式约束的优化:安全、隐私、公平、预算是硬墙,不是加分项。
最实用的「三行对齐声明」(写在能力清单之前)
- 系统在优化什么(必须是可观察、可分解的量,或明确写清「不可被单指标代表」)。
- 什么代价绝不能接受(隐私、操纵、成瘾、错误医疗建议——写具体触发器,不写「尽量」)。
- 出现什么信号必须停机重审(分布漂移、用户伤害报告、工具错误率阶跃、人类监督失联)。
给 AI agent 的额外两行
- 谁对最终状态负责(人机交接点)。
- 哪些动作需要双轨确认(写操作、对外承诺、金钱)。
一句话结论
没有约束的聪明,通常只是更高效的偏航。
如果你明天要开一个新项目,先用五分钟填那三行——再讨论「我们上不上大模型」。