NOW 有新文章，去博客接着读 »

AI 对齐与工程

好提示词其实是在做概念工程

Prompt 是软接口；概念没定义清，你就只能在自然语言里打类型补丁。先建模边界，句子会自己变短。

2026年4月10日 · Shuai · 3 分钟阅读

提示词写成长城的时候，问题很少是「修辞不够美」。

通常是概念没有编译。

核心判断

好 prompt 难，是因为它其实是概念工程的自然语言投影。

什么是概念工程

主动规定四件事：

指称：这个词在系统里精确指什么对象或状态。
排除：最常见的误读方向是哪些，必须显式拉黑。
关系：概念与工具、数据字段、业务流程如何绑定。
边界：在什么上下文成立，在什么上下文必须拒答或升级人类。

看起来像写作，其实是给模糊性定价——没付的价，会在边缘案例里连本带利收回。

为什么 prompt 会指数膨胀

根因是概念债务：

你没定义「完成」，模型就按语感填。
你没定义「用户」指访客还是付费主体，权限推理就飘。
你没列出失败拓扑，就只能事后用「请不要……」叠 buff。

每一句「请不要」都是在为缺失的类型系统打补丁。

更好的工作流：先概念表，后自然语言

输出类型：JSON？Markdown？决策日志？每种字段的必填/可选与语义。
合格/不合格判据：给正例 + 反例各三条，比十段形容词有用。
歧义清单：业务里最容易混的词（版本/环境/客户/项目）——在 prompt 开头做术语表。
例外与升级：哪些输入必须拒绝、转人工、调用哪条工具链——写成显式路由。

跨域锚：prompt ≈ 无类型语言的 duck typing

few-shot 像单元测试；能救局部，救不了全局契约。

概念工程像类型声明 + 不变式；前期贵，后期省。

和评测的接缝

概念工程产物应直接映射到评测探针：每个定义过的失败类型，至少一道题。

否则概念表只是文档表演。

一句话结论

Prompt 优化的上限，取决于你是否先做了可裁判的概念编译。

下一次想追加三段「注意」时，停一下：能不能把其中一条改成字段级 schema 或一张术语表？能，就改——你的 token 账单会感谢你。

标签

Share:

相关文章

查看全部文章 »

行动结构比 Agent 的忙碌更重要

行动结构比 Agent 的忙碌更重要

忙不等于逼近目标。把目标压成对象、步骤可证伪、反馈能纠偏、停机条件写死——否则再强的模型也只是更贵的空转。

约束比聪明更重要

约束比聪明更重要

能力放大方向；方向错了，聪明只是加速偏航。对齐=目标可裁判+代价硬约束+熔断，不是更听话。

评测首先是认识论问题

评测首先是认识论问题

分数回答不了「我们凭什么相信变好」；没有证据结构，评测只是把直觉做成仪表盘。

你只跟一个人说话，但整条产线在运转：如何让 Agent 结队-「架构师 Agent」

你只跟一个人说话，但整条产线在运转：如何让 Agent 结队-「架构师 Agent」

Stavros：最强模型只做规划与调度；人类说出 approved 才落地。附架构师 Agent 提示词全文。