引言:从“炼金术”到“工程学”
早期,当ChatGPT第一次横空出世时,整个互联网都在疯狂寻找那句能点石成金的“咒语”。那时候,我们把这种行为神圣化地称为Prompt Engineering(提示词工程)。
如果你掌握了某种复杂的模板,或者知道在指令末尾加上一句“这对我非常重要,请认真思考”,你似乎就掌握了通往未来的钥匙。
但随着GPT-5、Claude 4.7这些更强的模型越来越普及,以前被吹上天的那些"提示词秘籍",现在越来越不值钱了。为啥?因为光靠几句漂亮话,根本搞不定 AI 在复杂、长程任务里的疲软劲儿。
今天的 AI 行业,正在经历一场深刻的范式转移。我们正从“战术层面的提示词微调”,转向“系统层面的上下文工程”和“架构层面的智能体工作流”。这不只是技术的迭代,更是思维维度的跃迁。

△ 图源/AI生成
提示词工程的“天花板”与单点失效
1.1 “黑盒咒语”的局限性
提示词工程本质上是一种“经验主义的炼金术”。开发者通过不断的试错,试图找到模型内部权重的某种触发机制。
然而,这种模式存在一个致命的缺陷:它不可规模化。
在一个复杂的企业级应用中,你可能需要 AI 同时处理文件读取、API 调用、逻辑判断和长文本生成。如果你试图把所有的逻辑都塞进一条长达 5000 字的 System Prompt 里,你会发现模型开始变得“顾此失彼”。
这就是所谓的“单点失效”——只要你的指令中有一个微小的歧义,或者模型在处理长指令时稍微走神,整个任务流就会瞬间崩塌。
1.2 为什么“咒语”不再灵验?
随着模型能力的增强,大模型对指令的遵循度确实提高了,但它们的“注意力预算”依然是有限的。
在 LLM 的底层架构——Transformer 中,每一个 Token 都需要与 Context Window 里的其他所有 Token 进行两两比对(Self-Attention)。这意味着,当你把提示词写得越来越长、越来越复杂时,你实际上是在稀释模型的注意力。
•注意力弥散: 模型在处理指令 A 的时候,可能会受到指令 B 的干扰。
•首尾遗忘: 大量研究表明,模型更容易记住 Prompt 开头和结尾的信息,而中间的核心约束往往会被忽略。
因此,单纯在 Prompt 上卷,已经到了边际效应递减的临界点。
Context Engineering:AI 的“燃料管理”与状态革命
如果说 Prompt 是点火的火星,那么 Context(上下文) 就是 AI 运行的燃料。在长程任务中,如何管理这些燃料,直接决定了 AI 是能跑完一场马拉松,还是在起跑线就熄火。
2.1 Context Rot:长文本时代的“隐形杀手”
现在很多模型号称有 100k 甚至 1M 的上下文窗口,但这并不意味着你可以无节制地往里塞东西。技术圈最近出现了一个新词:Context Rot(上下文腐化)。
什么是 Context Rot?简单来说,就是随着对话轮次的增加,或者背景资料的堆砌,Context Window 里充斥了大量的垃圾信息——过时的中间结论、冗余的工具返回结果、重复的客套话。
这些信息就像“噪音”一样,会逐渐掩盖真正的“信号”。量化研究显示,当上下文长度增加时,模型提取核心事实的准确率会呈指数级下降。对于架构师来说,治理 Context Rot 的紧迫性,远高于优化 Prompt。
2.2 从“无状态”到“状态机”
传统的 AI 交互是**无状态(Stateless)**的。每一轮对话,模型都要重新读取整段历史。这就像一个失忆症患者,每次交流前都要翻一遍厚厚的笔记。
而 Context Engineering 的核心,就是要把 AI 变成一个有状态(Stateful)的计算引擎。
我们开始引入一些硬核的工程手段:
•动态修剪(Dynamic Pruning): 不再使用粗暴的滑动窗口(Sliding Window),而是通过重要性评分,动态地把那些“无用”的 Token 从内存中剔除。
•结构化笔记(Structured Note-taking): 这是一种非常有效的模式。我们引导模型在执行过程中,不断地把关键信息总结并记录在特定的“寄存器”(比如一段固定的 JSON 块)中。下一轮对话时,我们只给模型看最新的“寄存器状态”,而不是冗长的历史。
•分层检索(Hierarchical Retrieval): 配合 RAG(检索增强生成),只在需要时才把最相关的知识切片喂给模型。
2.3 MCP 协议:AI 的“外挂”标准化
提到上下文管理,不得不提 Anthropic 最近推出的 MCP(Model Context Protocol)。
在过去,如果你想让 AI 读取你的本地代码库或者查询数据库,你需要写大量的胶水代码。而 MCP 提供了一个标准化的协议,让 AI 能够以统一的方式接入外部数据源。
这本质上是在扩展 AI 的上下文边界。通过 MCP,AI 的上下文不再局限于那几千个 Token,而是可以实时、动态地连接到你的文件系统、GitHub、Slack 甚至 SQL 数据库。这意味着,AI 真正拥有了观察和操作外部世界的“眼睛”和“手”。
Agentic Workflow:从“单兵作战”到“系统协作”
当上下文管理能够自我闭环,AI 就从一个“被动响应的组件”进化为了一个“主动执行的 Agent”。但请注意,现在的趋势不再是追求一个全能的单体 Agent,而是构建 Agentic Workflow(智能体工作流)。
吴恩达(Andrew Ng)曾多次强调:相比于追求更强大的基础模型,优化 Agent 的工作流往往能带来更显著的性能提升。
3.四大核心设计模式
一个成熟的 Agentic Workflow 通常由以下四种模式组合而成:
Reflection(自省模式)
这是最基础也最有效的模式。模型生成结果后,不直接交付,而是由另一个(或同一个)模型进程进行 Review。
例子: “请写一段 Python 代码,然后检查其中是否有逻辑漏洞或不符合 PEP8 规范的地方,并根据检查结果进行修改。”
价值: 它利用了 LLM 在“判断”能力上通常优于“生成”能力的特性,通过多轮迭代消除低级错误。
Tool Use(工具使用模式)
AI 不再只靠大脑(参数)思考,而是学会了查手册、用计算器。
核心: 现在的重点在于如何设计“Token 友好”的工具。如果一个工具返回了 10MB 的 JSON,那会瞬间撑爆上下文。优秀的架构师会设计精简的 API,只返回模型最需要的关键字段。
Planning(规划模式)
面对复杂目标(比如“帮我调研 A 公司的财务状况并写一份报告”),Agent 不会直接开始写,而是先生成一个任务分解图(DAG)。
动态调整: 真正的 Planning 模式是动态的。如果第一步调研发现 A 公司已经破产了,Agent 应该能自动修改后续的计划,而不是死板地执行。
Multi-Agent Collaboration(多代理协同模式)
这是目前最硬核的方向。将任务分配给具有不同“角色”的 Agent。
解耦上下文: 这是多代理架构最大的工程优势。每个 Agent 只需要维护自己那一小块任务的 Context。
比如“程序员 Agent”不需要知道“产品经理 Agent”和用户讨论了多少轮需求细节,它只需要拿到最终的 Spec 即可。这种上下文的物理隔离,彻底解决了长文本下的 Context Rot 问题。
架构师视角:AI 时代的软件工程
在 Agent 时代,我们对“开发者”的定义正在发生变化。你不再只是在写代码,而是在设计一个智能系统。
4.1 状态管理是核心
在传统 Web 开发中,我们有 Redis、有数据库来存储 Session。在 Agent 开发中,你同样需要一个“状态中心”。
Agent 执行到哪一步了?
当前的中间变量是什么?
如果模型报错了,如何回滚状态?
这些问题,靠 Prompt 是解决不了的,必须靠扎实的后端架构。
4.2 错误处理与容错机制
LLM 是概率性的,这意味着它总会出错。一个工业级的 Agent 系统必须具备“重试逻辑”和“降级策略”。
•如果模型 A 连续三次调用工具失败,是否应该切换到更强的模型 B?
•如果模型陷入了逻辑死循环,如何强制熔断?
4.3 Token 经济学
在 Agent 架构中,每一轮循环都是有成本的。
•Prompt 压缩: 如何用最少的 Token 传达最复杂的逻辑?
•缓存策略: 像 Prompt Caching 这样的技术,正在成为降低 Agent 运行成本的关键。
结语:架构师的胜利
AI 的演进路径已经非常清晰:
1早期:Prompt 时代。重点是调优指令,看谁的“咒语”更灵。
2现阶段:Context 时代。重点是 RAG 和上下文管理,看谁的“燃料”更纯净。
3未来:Agent 时代。 重点是工作流架构,看谁的“系统”更鲁棒。
我们正在告别那个“迷信提示词”的阶段。未来的胜负手,不在于你背了多少条提示词模板,而在于你是否能像设计分布式系统一样,去设计 AI 的信息流和工作流。
AI 的上半场是算法的狂欢,下半场则是架构师的胜利。

推荐阅读




关注红熊AI实验室,了解AI技术前沿~
夜雨聆风