前几天 OpenAI 放了一份内部 Codex 使用手册出来。很多人看完第一反应是,这么大厂,肯定有什么杀手级 Prompt 套路吧。看完之后我有点意外。OpenAI 的真实跑法,朴素到让人怀疑这是不是公关稿。任务切小、文档先对齐、AGENTS.md 当全局上下文、先出计划再写代码、用 Best of N 做方案比较。这些东西,说实话任何一个写了一年代码的工程师都听过。但我做企业 AI 落地这几年,越看越觉得,这些朴素的工程约束,恰恰是大模型真正能干活的核心原因。今天就聊聊这个。
OpenAI 内部明确写了大改动先用对话模式让 Codex 出实现计划,确认没坑了再让它写代码。这个我深有体会。我之前用 AI 写代码经常栽在一个地方:计划看起来没问题,写出来跟计划确实有一些细节上的出入。有时候这个出入是无关紧要的,模型自己做了小调整,整体能跑。但有时候这个出入是致命的,模型在某个边界条件上用了你没想到的实现方式,单元测试都过了,线上炸了。所以现在我养成了一个习惯。任何大改动,先让 AI 出计划,我用十分钟扫一眼,看它的方案跟我脑子里的预期差多少。差得多的,直接打回重做计划。差得少的,让它按计划去写。写完之后再对着计划做 code review。这一套下来,多花的十分钟能省后面 debug 的两小时。Best of N 也是这个逻辑。OpenAI 内部会让复杂任务一次生成多个方案,再人工选或者合并。我用下来的感受是,肯定是有提升的。但要看你怎么用。不要让 AI 一次生成 5 个完整方案让你选,那是浪费 token。最好是让它先出方案大纲,3 个不一样思路的,你挑一个最有戏的,让它在这个方向上深入。这种"先选方向再深挖"的 Best of N,既控制了成本,又能拿到多种思路的对比。企业 AI 落地走到今天,我越来越觉得一件事。大模型落地早就过了拼提示词玄学的阶段。现在拼的全是这种反直觉的工程约束。什么是玄学?某种"魔法 Prompt",号称能让模型能力提升 30%。什么是工程约束?任务切小到什么粒度最稳,AGENTS.md 应该写多长,先出计划再写代码能减少多少返工,Best of N 怎么用最省 token。这些东西,每一个都没有黑魔法,每一个都需要在项目里慢慢磨出来。但恰恰是这些朴素到无聊的纪律,决定了你的 AI 编程是跑得通还是跑偏。Codex 的手册里有一个核心范式我特别喜欢:不是 AI 写代码,而是人定义目标,AI 执行任务,人 review 结果。这个范式的重点是分工。AI 不是你的替代品,AI 是你的执行层。你是目标定义层和验收层。中间靠文档、计划、测试这些工程产物连接起来。这套分工一旦跑顺了,你会发现,AI 编程这件事的瓶颈,从来不是模型能力,是工程纪律。我们这两年一直在等 AI 变强。但真正让 AI 编程在公司里跑起来的,从来不是更强的模型,是更稳的工作流。所以下次你看到某个大厂又发了什么 AI 编程新工具,别急着冲。先问问自己,我现在的工程约束够不够稳。任务切清楚了吗,文档写好了吗,code review 流程跑顺了吗。这些事做好了,用现在的模型也能跑出让人惊讶的效率。这些事没做好,给你最强的模型也是在烧钱。以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~感谢你的阅读,我们下次见哦~
基本文件流程错误SQL调试
请求信息 : 2026-06-04 14:12:25 HTTP/1.1 GET : https://www.yeyulingfeng.com/a/697867.html