AI开发范式的三次跃迁:从提示词工程,到上下文工程,再到 Harness

这两年，AI 的发展速度远远超过了大多数人的预期。

最开始，大家讨论的是怎么写一句“更聪明的提示词”；后来，越来越多的人发现，真正决定模型表现的，不只是那一句 prompt，而是你给了它什么背景、什么数据、什么工具、什么约束；再往前一步，当模型开始真正参与软件开发、测试、部署与反馈闭环时，一个新的关键词开始出现：Harness。

如果说提示词工程解决的是“怎么和模型说话”，上下文工程解决的是“给模型什么环境”，那么 Harness 解决的，就是“如何让模型稳定、可控地做事”。

AI 的能力没有只停留在生成答案，它正在进入一个更完整的工程时代。

一、提示词工程：让模型“听懂你”

AI 应用最早的大规模爆发，靠的是提示词工程。

那时大家的核心问题很直接：
怎样写 prompt，才能让模型输出更准确、更专业、更符合预期的内容？

于是，行业里很快形成了一整套经验：
• 给模型明确角色，比如“你是一位资深产品经理”
• 规定输出格式，比如“请用表格输出”
• 提供 few-shot 示例，让模型模仿正确答案
• 通过链式思考、分步拆解，提高复杂任务的正确率
• 强化限制条件，减少跑题和幻觉

这一阶段的本质，是在研究自然语言接口的设计。

提示词工程的重要性毋庸置疑。它让普通用户第一次真正感受到，大模型不是“只能聊天的黑箱”，而是一个可以被调教、被引导、被优化的系统。谁更会提问，谁就更容易得到更好的答案。

但很快，大家也发现了它的天花板。

一个 prompt 再精巧，也很难解决这几个问题：
• 模型不知道你的最新业务数据
• 模型不了解你的私有知识库
• 模型不知道当前任务的完整上下文
• 模型即使会说，也不一定真的能做
• 同一个 prompt，面对不同输入，结果波动很大

于是，行业开始从“写好一句话”，转向“搭好一个环境”。

二、上下文工程：让模型“理解它所处的任务现场”

当应用逐渐复杂，开发者越来越清楚地认识到：
模型的表现，不只是由参数决定，也高度由上下文决定。

于是，“上下文工程”开始成为真正的核心能力。

所谓上下文工程，并不只是往 prompt 里多塞几段资料，而是围绕模型输入构建一个动态、结构化、可计算的任务环境。它关注的问题包括：
• 当前任务需要哪些背景信息
• 哪些知识该被检索进来
• 历史对话中哪些内容该保留，哪些该丢弃
• 当前用户是谁，权限是什么，目标是什么
• 模型调用前后，状态如何管理
• 需要接入哪些工具、API、数据库与工作流

如果说提示词工程像是在“写台词”，那么上下文工程更像是在“搭舞台”。

在这个阶段，AI 应用开始明显从“单轮问答”走向“任务执行”。

比如，一个企业知识助手如果只靠提示词，很容易答得像模像样却不够准确；但一旦加入检索增强、用户身份识别、会话记忆、工具调用和结果校验，它就从一个“会聊天的机器人”，变成了一个“能解决问题的系统”。

上下文工程的价值，体现在三个方面。

1. 让模型变得更“懂业务”

模型本身再强，也不天然知道你的公司流程、产品细节、客户数据和内部规范。只有通过检索、状态注入和外部系统连接，模型才真正具备业务能力。

2. 让模型输出更稳定

很多时候，模型不稳定不是因为能力不够，而是因为输入环境不稳定。
当上下文组织得更清晰、信息优先级更明确、约束更完整时，输出的一致性会显著提升。

3. 让模型从“回答问题”走向“完成任务”

当模型可以读取文档、调用工具、执行流程、获取反馈时，它的角色就不再只是一个回答器，而更像一个具备行动能力的智能体节点。

也正因此，上下文工程成了今天 AI 应用落地里最关键的壁垒之一。

未来竞争的重点，不只是“谁接入了大模型”，而是“谁能把正确的上下文，在正确的时候，以正确的形式，交给模型”。

三、Harness：让模型“进入真实的软件与生产系统”

如果提示词工程是第一阶段，上下文工程是第二阶段，那么 Harness 所代表的，是第三阶段：
把模型纳入完整的工程闭环。

这里的 Harness，可以理解为一种“约束、驱动、测试、编排和观测 AI 系统”的框架与机制。它不只是一个工具名，也代表一种新工程思维：

不再把模型当作一个偶尔调用的生成器，
而是把它看作系统中的一个动态组件，需要被测试、被监控、被评估、被持续优化。

在传统软件工程中，我们早已习惯了这些概念：
• 单元测试
• 集成测试
• CI/CD
• 监控告警
• 灰度发布
• 回归验证
• 反馈闭环

但在 AI 时代，这些能力不能直接照搬，因为模型输出不是确定性的。
同一个输入，模型可能给出略有差异的多个结果；一个看起来合理的回答，可能隐藏事实错误；一个在离线评测里效果很好的 agent，到了真实环境中却可能频繁失败。

所以，Harness 的意义就在于：
为不确定性的模型，建立一套可管理的确定性工程外壳。

它通常会包括这些能力：

1. 任务编排

模型不是单独工作的，它往往要和检索、数据库、API、代码执行器、工作流引擎一起协作。Harness 要负责把这些步骤串起来，让模型在明确的流程中运行。

2. 评测与回归

每次改 prompt、换模型、改上下文策略、加新工具，都可能影响结果。Harness 需要支持批量评测、对比实验和回归检查，确保系统优化不是“拍脑袋”，而是可验证的。

3. 运行时控制

模型什么时候能调用工具？调用失败怎么办？超时如何降级？高风险输出怎么拦截？是否需要人工审核？这些都不是 prompt 能解决的问题，而是 Harness 要负责的运行时治理。

4. 观测与反馈

真正成熟的 AI 系统，必须知道自己哪里出错了。
Harness 需要记录调用链、上下文版本、工具结果、用户反馈、错误类型和最终 outcome，帮助团队持续修正系统。

5. 安全与边界

当模型开始接入代码库、数据库、运维系统甚至支付系统时，权限、安全和审计就变得极其重要。Harness 的作用之一，就是把“能做什么、不能做什么”清晰写进系统里，而不是仅靠一句“请谨慎操作”。

可以说，Harness 的出现，标志着 AI 应用正在从“实验性产品”走向“生产级系统”。

四、从 prompt 到 context，再到 harness，本质上变了什么？

表面上看，这是几个技术热词的变化；但本质上，它代表的是 AI 开发范式的升级。

第一阶段：面向输出优化

重点是：
怎样让模型回答得更好。

这是提示词工程的核心。

第二阶段：面向任务环境优化

重点是：
怎样让模型在更完整的信息与状态下工作。

这是上下文工程的核心。

第三阶段：面向系统闭环优化

重点是：
怎样让模型可靠地进入业务流程，并持续被评测、控制和迭代。

这是 Harness 的核心。

换句话说，行业的关注点已经从“模型说得像不像”，走到了“模型做得稳不稳”。

这是一种非常关键的转折。

因为真正的企业级价值，不来自一次惊艳的演示，而来自持续、稳定、可复用的结果。
一个偶尔表现出色的 AI，很难创造长期价值；一个被系统性管理起来的 AI，才有可能成为新的生产力基础设施。

五、未来的竞争，不只是模型能力，而是系统能力

过去大家喜欢比较模型排行榜，关心谁的参数更大、谁的 benchmark 更强。
但在真实世界里，最终拉开差距的，往往不是裸模型，而是整套系统能力：
• 你有没有高质量数据接入能力
• 你有没有稳定的上下文组织能力
• 你有没有工具调用与工作流设计能力
• 你有没有可持续评测和回归体系
• 你有没有安全治理和人工兜底机制
• 你有没有让 AI 真正进入业务闭环的工程能力

未来最有竞争力的团队，未必是最会“写神 prompt”的团队，
而是最会把模型、数据、工具、流程与反馈编织成一个整体系统的团队。

提示词工程不会消失，但它会变成基础能力；
上下文工程会越来越重要，因为它决定模型是否真正理解任务；
Harness 则会成为 AI 工程成熟度的分水岭，因为它决定模型能否稳定进入生产环境。

六、结语：AI 正在从“会说话”走向“能做事”

回头看这条演化路径，其实非常清晰。

从提示词工程开始，我们学会了如何与模型沟通；
通过上下文工程，我们学会了如何为模型构建任务世界；
借助 Harness，我们开始让模型进入真实系统，承担责任，并接受约束。

这不是几个概念的替换，而是 AI 从“交互式智能”走向“工程化智能”的过程。

未来的大模型竞争，越来越不像一次对话比赛，
而更像一场系统工程能力的较量。

真正重要的问题不再只是：

“这个模型会不会回答？”

而是：

“这个模型能不能在真实环境中，被可靠地组织起来，持续地产生价值？”

当行业开始认真回答这个问题时，AI 才算真正进入下一阶段。