大家好,我是柿子👋,这是我写的第36篇原创!感谢大家每一次的阅读与点赞,话不多说,我们开始!
上周我做了一件不可思议的事——把花了一个多月反复打磨的 system prompt 整段删了。
不是因为它写得不好,而是因为换到 GPT-5.5 之后,它反而成了拖油瓶。
把所有「第一步做 X、第二步做 Y、第三步检查 Z」的步骤指令删掉,只留下任务目标和一个验收标准。结果输出质量没降反升,平均延迟也少了三分之一。
那一刻我意识到,OpenAI 在 GPT-5.5 Prompt 指南里说的那句话不是客套:别再手把手教 AI 怎么做了,告诉它你要什么结果就行。
我对OpenAI发布的Prompt 指南进行了详细的拆解,包含 4 个 Outcome-First 要素清单 + 5 步迁移 SOP + 3 个翻车场景反例,下面分享给大家:
一、从 SOP 到 PRD,Prompt 工程的范式跃迁
很多人看完官方指南的第一反应是:那我把以前的长 Prompt 删一半不就行了?
错。
如果你只是删长度,没换思维,结果只会比以前更差——这是过去两周很多人踩的坑,包括我自己。
旧 Prompt 像写代码:精确控制每一步,生怕 AI 理解错了,所以写成了「第一步做 X,第二步做 Y,第三步检查 Z」。
新 Prompt 像写 PRD:定义验收标准,让模型自己规划路径。
这背后是 AI 能力的本质跃迁——GPT-5.5 这一代模型已经具备了真正的「自主规划能力」,你给它一个明确的验收标准,它会自己决定用什么路径到达。
你过去写的那些步骤型长 Prompt,在新模型里反而成了噪音。它会限制模型的搜索空间,或者让输出过于机械。
OpenAI 官方文档里有一句话特别扎心——「从一个全新的基线开始迁移,而不是把旧 Prompt 栈里的每一条指令都搬过来」。
翻译成产品语言就是:以前你在写 SOP,现在你在写 PRD。
这两种思维方式的差别,不在文字长度,而在「我控制什么」。
写 SOP 的人控制过程,写 PRD 的人控制结果。
懂这个差异,下面那套 4 要素清单才用得上。
二、Outcome-First 不是写得短,是写得准——4 个要素清单

真正的 Outcome-First Prompt,需要把 4 件事写到位。
要素 1:明确的成功定义
反例:「帮我分析这份数据」
正例:「输出一份包含 3 个核心指标趋势、2 条异常预警、1 个决策建议的分析报告,每条建议必须标注优先级和预期影响」
一句话:把「做什么」换成「产出长什么样」。
PM 视角下,这就是 PRD 里最关键的那一栏——「交付物形态」。模糊的成功定义,模糊的交付。
要素 2:清晰的约束边界
什么可以做,什么不能做。
比如「只能基于已提供的数据,不要编造数字」「如果数据缺失超过 20%,必须在开头标注数据质量警告」。
这是 PRD 里的「非功能性需求」——一个产品什么不能做,往往比能做什么更重要。
要素 3:具体的输出格式
是要 JSON 还是 Markdown,是要表格还是列表,字数控制在多少以内。
注意一个反直觉的 OpenAI 官方建议——避免在 Prompt 里写 schema 描述,改用 Structured Outputs API。后者自动校验、提升准确率,比你在文字里啰嗦十遍「请输出 JSON 格式」可靠得多。
这是交付物的形态约定,能机器化的就别用语言再啰嗦。
要素 4:可验证的停止条件
什么情况下可以停止。
搜到能回答问题的信息就停,还是搜满 5 个来源才停,这个要明确。
不写清楚停止条件,模型在 agentic 任务里会变成「想太多」型选手——一个简单查询能跑 30 次工具调用,token 烧光,效果反而打折。
这是验收标准里最容易被遗漏的一栏,但也是新 Prompt 时代成本控制的命门。
写好这 4 个要素,你的 Prompt 就有了 PRD 的骨架。下面要补充的,是 GPT-5.5 本身带来的几个隐藏变化。
三、除了写法换了,还有 3 件事必须知道
变化 1: reasoning_effort 默认变成 medium,且新增了 none 档
很多解读文章在这里只提到 4 档,其实 OpenAI 这次实际是给了 5 档:none / low / medium / high / xhigh。
我的实测经验是这样的:
none:极速场景,比如语音对话的轻量回合、快速分类,不需要规划和多步工具调用
low:仍需要一点推理但延迟敏感,比如工具选择、简单规划
medium:80% 的场景用这档就够了,这是新的默认值,性价比最高
high:复杂 Agent 任务、需要硬推理且延迟不太重要的场景
xhigh:最难的异步 Agent 任务,或者测试模型智力上限的场景
关键建议是——不要一上来就开 high。
很多人觉得推理强度越高越好,结果成本飙升、延迟增加,但实际效果提升不到 20%。
如果你的任务本身指令就有冲突、停止条件不清晰,开高档反而会让模型「想太多」,质量倒退。
档位先用 medium 跑通,再针对效果不行的子任务局部上调,是更稳的姿势。
变化 2:默认风格更简洁直接
GPT-5.5 默认的输出风格是「高效、直接、任务导向」。
对很多生产场景这是好事,但如果你在做客服、营销、对话式体验,可能会觉得输出太「冷」。
解决方案是显式加 personality 引导 + 用 text.verbosity 控制详细度。
举个柿子实测有效的写法:
``
用温暖、专业的语气回复
每个建议要解释为什么这样做
避免生硬的列表式回复,用自然的段落表达`
这一段加上去之后,内容创作场景的输出温度肉眼可见地回来了。
text.verbosity 的取值也值得记一下:low 比 GPT-5.4 的 low 还要简洁,medium 是默认;需要详细解释别指望默认,必须在 Prompt 里明确要求。
变化 3:长 context 有个价格陷阱
这条是推文里没提、但 AI 创业者最容易踩的坑——Prompt 输入超过 272K token 时,整轮对话价格变成 2 倍 input + 1.5 倍输出,含 batch 和 flex 模式。
意思是你跑长 context 的评估任务、agent 工作流、文档批处理,预算可能会比预期翻倍。
应对方法是 prompt caching——把稳定不变的内容放请求开头,把动态用户上下文放最后。命中缓存能显著降低长 context 的成本。
具体省多少,得看你的稳定内容占比,不要拍脑袋估。
四、5 步迁移 SOP——不是改个模型名那么简单

如果你现在用的是 GPT-5.2 或 GPT-5.4,迁移到 5.5 不是直接改个模型名那么简单。
我踩过的坑是:直接切换后,有些任务输出变得过于简洁,有些任务反而想太多导致延迟增加。
下面这套 5 步路径,是踩坑之后整理出来的可执行 SOP。
Step 1:API 参数调整
模型名改为 gpt-5.5
reasoning_effort 显式设置为 medium——虽然是默认值,但显式设置能避免未来默认值变化时被偷袭
如果需要简洁输出,把 text.verbosity 设为 low
Step 2:从零开始写 Prompt 基线(不要复制旧 Prompt)
这一步是最关键也最反直觉的。
具体动作:
只保留「任务目标」和「成功标准」
删除所有「第一步、第二步」式的过程指导
删除 Prompt 里的 output schema 定义,改用 Structured Outputs API
不要心疼,那些花心思打磨的步骤指令,是给上一代模型用的。
Step 3:在小规模测试集上跑一版对比
选 10-20 个核心场景,新旧输出并排看:
哪些变好了
哪些变差了
哪些格式变了
这一步别跳。如果跳过直接全量切换,你会被零散的体感反馈带着走,最后判断不清是 Prompt 的问题还是模型的问题。
Step 4:针对性补充约束
不要一次性把所有约束都补上,而是看测试集里哪类问题最多,对应补哪一类约束:
输出不稳定 → 加 output_contract 明确格式
输出太简洁 → 加 personality 和详细度引导
任务完成度不够 → 加明确的停止条件和验证规则
每加一条都跑一遍测试集,看新增的约束有没有副作用。
Step 5:最后调整 reasoning_effort
注意,这一步是最后。
只有在 Prompt 结构稳定后,才根据任务复杂度调节这个参数:
简单提取、格式转换 → low
复杂 Agent、多步推理 → 保持 medium 或升到 high
如果你 Prompt 还没稳定就先调档位,永远分不清效果变化是 Prompt 改的还是档位改的。
5 步走完,你才算真正完成了一次 GPT-5.5 迁移。
五、Outcome-First 也有翻车的时候——3 个反例

结果导向听起来很美好,但有 3 种情况下会翻车。
翻车 1:创意类任务过度约束
如果你要的是一篇有趣的科幻短篇,纯结果导向会让输出变得套路化。
因为你定义了太多「成功标准」,模型反而不敢发挥。
这时候要反过来——给一些过程自由度。比如说「情节必须有 2 次反转」「主角性格要立体,不要脸谱化」,但不要规定具体怎么转。
创意需要留白,验收标准只画外框。
翻车 2:多轮对话中的指令漂移
如果用户中途改了需求,GPT-5.5 可能记不清之前的约束。
解决方案是每次指令更新时,明确说「这条新指令覆盖之前的 XX 规则」或者「这条新指令是补充,之前的规则依然有效」。
不要假设模型自己知道你想覆盖还是想叠加。
翻车 3:低质量输入
如果你的输入数据本身就很乱,比如 OCR 识别错误很多的文档,再好的「验收标准」也救不回来。
这时候需要先加一层输入质量检查:
`在开始分析前,先检查:
数据完整性是否 > 80%
关键字段是否缺失
文本可读性是否达标
如果质量不达标,返回具体的质量问题清单,不要强行分析``
垃圾进,垃圾出。
让模型先判断输入能不能用,比让它强行处理一堆烂数据再返工,要省得多。
写在最后:产品经理在 AI 时代反而更值钱了
GPT-5.5 的能力天花板很高,但要真正用好它,靠的不是少写几个字,而是更清晰地定义问题。
这也是为什么我说,产品经理思维在 AI 时代反而更值钱了。
你越懂如何定义需求、如何写验收标准、如何设计契约,就越能让 AI 发挥出最大价值。
以前 PM 在大厂常被开发说一句话——你只动嘴不动手。AI 时代反过来了:你嘴里能说出来的那套「定义需求 / 写验收标准 / 拆解交付契约」的能力,就是 AI 工程师再多代码也补不来的。
这不是 Prompt 技巧的变化,是我们和 AI 协作方式的根本转变。
那些花几个月精心打磨的长 Prompt,没有白写——它们训练的不是 AI,是你自己的产品思维。这套能力放到 GPT-5.5 上反而开花了。
夜雨聆风