NOW 有新文章，去博客接着读 »

AI 对齐与工程

世界模型先于提示词

提示词修的是表面句法；对象、边界与关系没站稳时，你只是在精致地猜。先画世界，再写话。

2026年4月10日 · Shuai · 3 分钟阅读

提示词改到第十版仍「差一点」，常见结论不是「模型不行」。

是系统从没说过世界由什么组成。

核心判断

世界模型不稳时，prompt 优化只是在模糊结构上雕花。

什么叫世界模型（工程最小版）

至少四件事被书面化且可共享：

对象本体：系统处理哪些实体，它们的身份键是什么。
分类边界：易混类别如何区分（客户/用户/租户/工作区……）。
关系图：哪些关系允许，何时成立，何时失效。
硬约束：哪些状态迁移与工具调用在道德与业务上绝对不可。

四缺一，就会在边缘案例里用随机流畅度填坑。

为什么 builder 常误判成 prompt 问题

表面症状太像：

回答差一口气。
工具参数偶发幻觉。
检索「相关但不对」。
多 agent 互踩上下文。

根因却常在：schema 与业务词表没对齐、关系默认存在却从未声明、约束只在老员工脑子里。

跨域锚：泄漏的抽象（leaky abstraction）

没有世界模型的 AI 栈，像所有层共享一个 void*指针——编译期安静，运行期爆炸。

prompt 是注释，不是类型系统。

最实用的检查顺序（比 A/B prompt 优先）

列实体白名单与主键：什么是「一等对象」，什么只是属性。
扫术语漂移：同一概念在代码、数据、提示里是否同名；若不同名，映射表在哪。
把隐式关系画出来：「显然要先付款」这种话，有没有出现在状态机或守卫条件里。
再写 prompt：此时 prompt 只做语气与缺省策略，不再背负本体债务。

与世界模型配套的三件 artifacts

术语表（glossary）：一页纸，冲突当场处决。
关系图（小也行）：谁依赖谁，谁拥有谁。
禁止表（negative constraints）：哪些动作无监督不可执行。

一句话结论

当系统连「世界由什么组成」都没说清时，提示词优化通常只是更精致的猜。

下一个迭代，先花三十分钟填实体表——再打开聊天框写 system message；顺序反过来，你会把魔法浪费在错误层级上。

标签

Share:

相关文章

查看全部文章 »

评测首先是认识论问题

评测首先是认识论问题

分数回答不了「我们凭什么相信变好」；没有证据结构，评测只是把直觉做成仪表盘。

行动结构比 Agent 的忙碌更重要

行动结构比 Agent 的忙碌更重要

忙不等于逼近目标。把目标压成对象、步骤可证伪、反馈能纠偏、停机条件写死——否则再强的模型也只是更贵的空转。

约束比聪明更重要

约束比聪明更重要

能力放大方向；方向错了，聪明只是加速偏航。对齐=目标可裁判+代价硬约束+熔断，不是更听话。

好提示词其实是在做概念工程

好提示词其实是在做概念工程

Prompt 是软接口；概念没定义清，你就只能在自然语言里打类型补丁。先建模边界，句子会自己变短。