聊聊AI圈火热的Engineering们写在前面:很久没有更新了,趁着这个端午节,也聊一聊最近的AI领域比较爆火的概念。比如像Prompt Engineering、Context Engineering、Harness Engineering、Loop Engineering,这些Engineering到底代表着什么,我们又该如何在这些Engineering的浪潮中继续前行,笔者希望能够借助写文章的机会阐述自己的理解,同时能够给出自己的思考。保持一颗“求是”的心,不盲从,独立思考。本文均为作者自己观点,文章内容基本全部手搓,来源无虚假、幻觉等,可以放心阅读!Prompt Engineering,提示词工程。这个概念在早两年的时候,还是非常被吹捧的,但是在近两年的时候,会发现这个概念不再像之前那样如此火热,而这个变化,一方面是源于技术层面的变革,模型的能力在当下变得越来越强大,而另外一个变化则是这个概念它太基础了,基础到任何一个关注到AI领域的从业者都听过这样的一个概念。尽管Prompt Engineering已经不像过去那样被频繁讨论,但对于大多数从业者而言,它的重要性并不亚于其他几个Engineering。我给出的判断逻辑很简单,对于其他的几个Engineering,在很大的程度上,我们干预的前提是需要具备足够的技术且是这个智能体的架构或设计人员。而Prompt是我们作为普通大众可以直接进行干预的,通过语言逻辑层面的表述,提升我们得到回复的质量。在大模型的发展中,采用LLM处理下游任务时,很多场景已经开始从“预训练-微调-预测”的范式转向了“预训练-提示(Prompt)预测”的范式,而这个变化在很大程度上依赖于模型参数的增大、能力的提升。Prompt的核心目标则是用来提升模型生成回答的质量,标准的Prompt通常包括任务说明、问题、上下文、输出格式四个基本元素。Prompt工程广义层面的定义是不改变模型参数的前提下,通过设计输入结构与交互模式,引导模型稳定产生目标输出。属于零参数、无训练的方法。其核心包含两种技术,上下文学习和思维链。上下文学习ICL是在提示词中输入少量示例,再输入问题的方式,通过构造范例的上下文提示,来让模型从示例中学习任务范式。研究证明,few-shot少样本学习相比于zero-shot、one-shot的表现要好很多。思维链CoT则是在提示中引导模型逐步拆解推理过程,而非直接给出答案,常见的形式包括零样本CoT,如仅加一句“请一步步思考”;少样本CoT,在ICL示例中附带完整的推理过程;Auto CoT,通过引入与待解决问题相关的问题和推理链作为示例以提升CoT的效果。此外,除了这种单一的思维链之外,还发展了三思而后行模式,典型如Tree of Thoughts(ToT)和Graph of Thoughts,ToT最为典型的逻辑在于具备回溯和重新选择的能力,通过拆解、衍生、评估、搜索四个不同的角度来构建思维树;集思广益的模式,代表如Self-Consistency和Universal Self-Consistency模式,Self-Consistency通过引入多样性的推理路径,从中投票选择最一致的答案,从而提高模型推理的准确性。而Open AI推出的GPT-o1,则较早的通过在训练阶段,通过面向推理轨迹的RL强化学习训练,不仅奖励结果,而是奖励可纠错的CoT过程,极大地提升了CoT的能力(GPT-o1的训练逻辑并非官方发布,存在“野史”成分,辩证看待)。Context这个词,相比于Prompt,则是又进一步提升了一个层面。前段时间幽素的《置身钉内》在文章中提到一个很重要的观点,ToB AI的真正壁垒不再是模型的参数,是独家、持续、真实的企业级Context。这一点,我很认可,在我实践我的毕业论文时,这一点我深有体会。什么是Context,我给出一个最基本的理解,就是进入到模型窗口内的所有内容,Context窗口本身存在Token预算限制,同时模型对长上下文的信息利用效率也并非线性增长。那么,Context Engineering就呼之欲出了,即在有限的注意力预算下,设计进入模型窗口的信息,放什么,不放什么,什么顺序放,放多少。Context中包含的内容很多,系统指令、对话历史、RAG检索结果、工具信息、Skill说明、用户长期记忆等等的内容。其实看到上面的内容,我们会发现,Context中,已经有很多内容不再是可以由用户可以直接进行控制,需要侧重由应用侧进行设计。而Context中最为核心的内容则重点包含了系统提示词System Prompt、历史对话History、检索知识库RAG、用户提问Query。关于这里面的设计哲学,在本篇文章中就不着重讲解了,感兴趣的研究者可自行了解。Harness这个词其实非常有意思,它的中文名叫做马具。而Harness的定义又非常简单,Harness+LLM=Agent,也就是对于Agent而言,除了大模型而言,其他的一切工程都可以叫做Harness,当然Harness在这里更多指Agent的控制层,外部的tool等内容是不算的。联想到它的中文名马具,我们可以把LLM想象成是一匹脱缰的野马,那么Harness则是为了约束这匹野马,以便能够在正确的道路上进行驾驶。Harness工程指的是,在大模型之外,整套约束、引导、校验、反馈智能体的工业级工程体系,通过搭建环境、规则护栏、执行闭环,将LLM转换为可规模化落地的生产及AI产品。Harness这个词,它其实很泛化,除了LLM,都是Harness,但是在这个过程中,并没有什么新的技术产生,所以,针对这个词,有一部分人会认为是AI圈炒作的概念。笔者观点暂时不表,我们先看看这个词的爆火的原因,其源于OpenAI的一项实验,3名工程师(后期扩展到7人)在5个月时间,0人手搓代码的情况下,通过搭建planner、coder、reviewer3个智能体,生成近100万行可上生产环境的产品。此外,Langchain的量化实验、Anthropic的三层代理架构等都说明通过提升模型外围的能力,是可以极大地构建AI产品的能力、质量底座。回过头来看,我是赞同这个概念中是没有新技术的,但是Harness Engineering是从战略维度说明应用的落地不能仅依靠于模型的能力,而更为关键的则是外围的基础设施。很简单的一个例子,同样的手机芯片,但是不同厂商造出来的效果是不一致的,这些工程外的能力就可以类比于是Harness。但是,我必须抛出一个观点,Harness并非一成不变,它需要持续的跟进最新的前沿发展,或许在未来的某一天,我们现有所做的很多工程能力,都会随着模型能力的提升而不再重要。比如Claude 4.5存在极大的上下文焦虑的问题,Harness则需要考虑去重点解决这个问题,但是随着Claude4.6模型能力的提升,上下文焦虑的这个问题则不再显得那么重要。Loop这个词是循环的意思,它的核心其实开始为效果负责,其所强调的更多是目标导向,而更少的是技术层面的概念。回顾上面的几个Engineering,我们可以看到,prompt Engineering解决的是如何讲出来以优化LLM的单轮输出,Context Engineering解决的是给什么内容让模型能够看到什么信息,Harness解决的是如何跑,怎么进行效果验证等。但是Loop Engineering解决的是,搭建具备自动触发、任务分发、执行、自检、迭代、状态持久化的闭环系统。从这个思路中,我们可以看到,Loop的核心并不是“循环执行”,而是围绕目标构建持续反馈和状态更新机制,基于循环的方式,将判断的整个过程交给了系统。传统的范式是人输入prompt-AI输出-人判断,Loop的逻辑是人输入prompt-Agent自我提问-Agent自我校验-Agent自我输出,整体逻辑围绕目标结果,增加循环闭环调度的能力。所以Loop Engineering非常核心的机制便在于如何执行,何时停止,如何从结果学习。其实Loop的概念,和ReAct的理念是有一定相似性的,不是一次性给出答案,而是“想-做-看-再想-再做-再看”从而实现目标闭环,只不过ReAct更多是单次的对话,是Agent执行的一种范式,而Loop Engineering则是系统级工程。AI的发展真的很快,快到我们以为有了AI我们无所不能,当去年,我们还在关注幻觉的的时候,今年我听到幻觉相关的内容已经没那么多了,是幻觉被消除了吗?不是的,它依旧存在,而且存在的形式更为隐蔽,以强化学习驱动的很多模型会更倾向于迎合用户意图,而非主动纠正用户认知偏差。在写这篇文章的时候,我思考过很多次,是否我自己列一个大纲,让AI进行内容补全,甚至不用我列大纲,只需要我阐述思路和想法,AI就能生成大纲,继而生成内容,而在最后的时候,我还是坚持想要自己去写,或许我不如AI的水平,但我需要一篇没有幻觉的,能够展示我学习路上收获的文章,展示完全属于我的知识。还是聊聊我们这几个Engineering,从我的角度而言,如Harness、Loop是提出了新的技术路线吗?并非如此。这些概念更多代表是一些顶层的理念,如Harness更偏向于如何工程化落地,如何实践落地AI产品,而Loop则代表更多的自动化实现。所以,这些概念重要吗?我觉得并不重要,重要的是一种趋势,AI工程已经从“如何让模型正确回答”转向“如何让系统稳定高效的完成目标”,过去我们关注“模型是否聪明”,现在我们关注“系统能否持续干活”,未来我们关注“系统能否自我优化”,那么Harness、Loop是终局吗?我并不认为。在这样的浪潮下,我们真正需要关注是如何与趋势结合,如何在看似无所不能的AI时代,依旧保持客观、清醒、求是,我们的每一步都不要丢掉对事实和边界的敬畏。回头看Prompt、Context、Harness、Loop,它们并不是彼此替代,而更像是AI工程不断向上抽象的过程:从优化一句话,到优化信息,再到优化系统,最终优化目标本身。