乐于分享
好东西不私藏

OpenAI、Anthropic 罕见同步更新提示词指南!你精心打磨的 prompt,可能已经变成「技术债」

OpenAI、Anthropic 罕见同步更新提示词指南!你精心打磨的 prompt,可能已经变成「技术债」

导读
OpenAI 和 Anthropic 几乎同一时间发布了各自最新模型的提示词最佳实践文档。两份指南指向同一个结论:过去那套靠堆流程、堆限制、堆补丁来”驯服”模型的 prompt 写法,正在迅速过时。一条在 X 上获得超 2.5 万次浏览的帖子把两家文档并排解读,瞬间点燃了开发者社区的焦虑。

一条推文,戳中了整个行业的痛点

4 月 30 日凌晨,X 用户 Alex Prompter 发了一条长帖,开头就是一句直击灵魂的话:

“Your old prompts don’t work anymore.”

「你的旧提示词不好使了。」

他把 OpenAI 刚发的 GPT-5.5 使用指南和 Anthropic 的 Claude Opus 4.7 最佳实践并排放在一起,得出了一个让人坐不住的观察——两家都在告诉开发者:别再照搬旧 prompt 了,但原因恰好相反。

▲ Alex Prompter 的帖子迅速获得 251 赞、435 收藏、超 2.5 万次浏览

这条帖子迅速在开发者圈子发酵。有人赞同,有人反对,但所有人都承认一件事:提示词的写法,确实在经历一场范式转换。

OpenAI 说得最直白:别把旧 prompt 搬过来

OpenAI 在 GPT-5.5 的官方文档里写了一段非常罕见的话。注意,这可不是某个博主的个人观点——就是官方开发者文档里的白纸黑字

“To get the most out of GPT-5.5, treat it as a new model family to tune for, not a drop-in replacement for gpt-5.2 or gpt-5.4.”

「想要充分发挥 GPT-5.5 的能力,就要把它当成一个全新的模型家族来调,别当成 gpt-5.2 或 gpt-5.4 的无缝替换品。」

▲ OpenAI 开发者文档明确要求:把 GPT-5.5 当新模型重新调

后面还有一句更狠的:

“Begin migration with a fresh baseline instead of carrying over every instruction from an older prompt stack.”

「迁移时从全新 baseline 开始,别把旧 prompt stack 里的每条指令都原封不动搬过来。」

什么叫 fresh baseline?就是从零开始重写你的提示词

而在另一份 GPT-5.5 Prompting Guide 里,OpenAI 直接解释了为什么旧 prompt 会”失灵”:

“Legacy prompts often over-specify the process because earlier models needed more help staying on track. With GPT-5.5, that can add noise, narrow the model’s search space, or lead to overly mechanical answers.”

「旧提示词往往把过程规定得过细——因为早期模型确实需要更多”扶着走”。但到了 GPT-5.5,这些过程指令反而会变成噪音,压缩模型的搜索空间,甚至让回答变得机械。」

▲ OpenAI 新版 Prompt guidance:更短、以结果为先的 prompt 通常效果更好

换句话说:你以前为了防幻觉、防跑偏而写的那些”脚手架式”指令,在新模型眼里全变成了干扰。

OpenAI 给出的新方向只有一个词:outcome-first(结果优先)

“Shorter, outcome-first prompts usually work better than process-heavy prompt stacks.”

「更短的、以结果为先的提示词,通常比那种流程很重的 prompt stack 更有效。」

Anthropic 这边:没那么激进,但同样在改规则

Anthropic 的表述比 OpenAI 克制得多,但方向是一致的。

在 Claude Opus 4.7 的 Prompting Best Practices 文档里,Anthropic 首先承认了一个关键事实:

“Claude Opus 4.7 performs well out of the box on existing Claude Opus 4.6 prompts.”

「Opus 4.7 在现有 4.6 prompt 上表现不错。」

但紧接着就是一个”但是”:

“The patterns below cover the behaviors that most often require tuning.”

「但下面这些行为,最常需要重新调整。」

▲ Anthropic 文档:Opus 4.7 变化最大的是回答长度、思考深度和 effort 校准

变化最核心的一条:

“Claude Opus 4.7 calibrates response length to how complex it judges the task to be, rather than defaulting to a fixed verbosity.”

「Opus 4.7 会按它自己判断的任务复杂度来校准回答长度,不再默认固定的冗长程度。」

这意味着什么?过去你写”请详细回答”或者”至少 500 字”能管用的控制方式,现在可能完全不灵了。模型自己会决定该写多长。

如果你的产品依赖特定的输出风格或字数,Anthropic 的建议是:用正向示例去校准,告诉模型”应该怎么做”,而非堆一堆”不要这样做”的负向约束。

▲ Anthropic 强调:做 prompt engineering 之前,先定义 success criteria

另一个重大变化在于effort(思考深度)的校准逻辑。Opus 4.7 在低 effort 模式下会严格控制思考范围——如果你发现它”想得太浅”,Anthropic 的建议很直接:别硬堆更多提示词指令,直接调高 effort 参数

▲ 如果模型思考太浅,Anthropic 建议调高 effort,而非硬写更多提示词

两家看起来”相反”,但底层逻辑是一样的

Alex Prompter 的帖子里有一个很有传播力的总结:

GPT-5.5 变得更自主了——你只需要告诉它”要什么结果”,过程它自己找。 Claude Opus 4.7 变得更精确了——你需要更明确地告诉它”到底要什么”,因为它不再替你脑补。

表面上看,一个在说”少说步骤”,一个在说”说清楚要求”。方向好像完全相反?

其实剥开传播层的简化,两家底层的方法论正在快速趋同:

第一,先定义 success criteria(成功标准),再开始写 prompt。OpenAI 说的是 “expected outcome, success criteria, evidence rules”;Anthropic 要求在做 prompt engineering 之前先有”a clear definition of the success criteria”和”ways to empirically test against those criteria”。

第二,别把旧 prompt stack 当资产,把它当技术债来审视。OpenAI 明确要求 fresh baseline;Anthropic 则通过改变 verbosity / effort / thinking 的默认行为,倒逼开发者重新调整。

第三,prompt 从”流程控制”走向”结果定义 + 评测校准”。堆流程、堆限制、堆补丁的时代正在结束。

Simon Willison 一语中的

知名开发者博主 Simon Willison 在 4 月 25 日就注意到了 OpenAI 的文档更新,并写了一篇博文专门讨论。他抓住了最关键的一句:

“Interesting to see OpenAI recommend starting from scratch rather than trusting that existing prompts optimized for previous models will continue to work effectively with GPT-5.5.”

「有意思的是,OpenAI 在建议开发者从零开始,而非相信那些针对旧模型优化过的 prompt 能在 GPT-5.5 上继续有效。」

▲ Simon Willison:OpenAI 在建议你从零开始

HN 社区的真实体感:旧 prompt 确实是”一堆 hack”

Hacker News 上关于这个话题的讨论帖里,一条评论说出了很多开发者的心声:

“Most of my 5.4 prompts are piles of hacks to stop the model from hallucinating or going off topic.”

「我给 5.4 写的 prompt,大部分就是一堆为了防幻觉、防跑偏的 hack。」

▲ HN 用户坦言:旧 prompt 本质上就是一堆防御性 hack

这正好印证了 OpenAI 文档里的判断:那些曾经有用的”脚手架”,在新模型面前已经变成了包袱。

反对声音同样值得听

当然,X 上也有人提出了不同看法。

工程师 Anton Kuratnik 直接反驳了”Claude 4.7 更字面化”的说法:

“100% BS… Major reason I stopped using 4.7 is because it does what you ask and then 50 things you didn’t.”

「完全胡扯……我不用 4.7 的主要原因恰恰是:它做了你要求的事,然后又多做了 50 件你没要求的。」

▲ Anton 的痛点和 Alex 的总结恰好相反:他觉得 Opus 4.7 管得太宽

Wolfram Ravenwolf 则从产品体验的角度提出了一个更根本的问题:

“If the user or prompt has to adapt to the AI instead of the other way around, that’s bad. If a minor model version update makes that a necessity (4.6→4.7 / 5.4→5.5), that’s even worse.”

「如果用户和提示词要反过来适应 AI,那就很糟糕。如果一次小版本升级就逼着用户必须适配(4.6→4.7 / 5.4→5.5),那就更糟糕了。」

▲ Wolfram 的质疑:每次升级都逼用户重写 prompt,这本身就是糟糕的产品设计

这个批评很有道理。模型能力在进步,但如果每一代升级都意味着开发者要推翻重来,那 prompt 就永远无法成为稳定的基础设施。

真正在过时的,到底是什么?

把所有声音放在一起,一个更清晰的结论开始浮现:

过时的,不是”提示词”这件事本身。提示词依然重要,甚至比以前更重要——因为模型变强了,精准定义需求的能力差距反而被放大了。

真正在过时的,是那套”驯服式”的 prompt 写法:靠堆流程步骤来防跑偏,靠堆负向约束来防幻觉,靠堆角色扮演来维持风格,靠一层又一层的补丁来修修补补。

OpenAI 把新范式叫outcome-first prompting——先说清结果、约束和成功标准,让模型自己选路径。

Anthropic 的方法论更像eval-driven prompting——先建立评测体系,再用正向示例和参数调校来精确控制行为。

殊途同归。

一位 X 用户 lossybrain 的总结也许最贴切:好的 prompting architecture 能兼容不同模型的 worldview;如果你的 prompt 只在一个模型版本上能用,那问题大概出在你的系统设计上,跟模型关系不大。

给开发者的行动清单

如果你还在用几个月前给 GPT-5.4 或 Claude 4.6 调好的 prompt stack,现在是时候审视一下了:

1.做一次 prompt 审计:标记哪些指令是为了”扶着模型走路”写的——它们很可能已经变成噪音 2.建立 fresh baseline:从最短的、只保留核心产品约束的 prompt 开始重新调 3.定义 success criteria:先明确”什么是好结果”,再来调 prompt 4.用评测驱动迭代:拿真实样本测,别靠直觉判断 prompt 好不好用 5.分离关注点:把”风格控制”和”任务控制”拆开,分别用不同的机制处理

提示词工程,正在从”黑魔法”变成”工程学”。

这一轮升级也许会让很多精心打磨的 prompt 突然失灵。但换个角度看——如果你的 prompt 只在特定模型版本上才能用,那它从来就不是资产,一直都是技术债。


— END —

— END —