乐于分享
好东西不私藏

你的 AI 助手为什么总是"用着用着就变笨了"?

你的 AI 助手为什么总是"用着用着就变笨了"?

你有没有过这样的体验?

刚开始用 AI 做一个项目,它表现得聪明极了——理解你的需求,给出漂亮的方案,代码写得有模有样。但用着用着,它开始忘记你们之前说好的事,开始重复之前犯过的错误,开始给出前后矛盾的回答。
你换了一个更贵的模型,好了一阵子,然后同样的问题又出现了。
你开始怀疑:AI,到底有没有用?
其实,你遇到的问题,根本不是模型的问题。

先讲一个让人扎心的故事

2025 年底,一位创业者在网上发了条动态:

“我花了三个月调 Prompt,模型回答质量提升了 20%。然后我花了两周搭 Harness,整体任务完成率从 35% 飙到了 82%。”

点赞最高的评论只有四个字:方向错了。
过去两年,整个行业都在盯着模型——参数多大、基准分数多高、上下文窗口多长。每次新模型发布,社交媒体上就一片狂欢。但现实是:绝大多数人在真实工作中,并没有感受到与那些炫目数字相匹配的能力提升。
为什么?因为大家盯错了地方。

模型是引擎,但引擎不是汽车

打个比方。一颗性能强劲的发动机,单独放在地上,它什么都做不了——不能载人,不能转向,不能刹车,甚至不能自己启动。你需要底盘、变速箱、方向盘、油路系统……这一整套东西,才能让引擎的力量真正变成”带你去目的地”的能力。
AI Agent 的世界里,这套东西有个名字,叫做Harness
所以,真正的公式是这样的:
Agent = Model(模型)+ Harness(挽具)
模型负责”想”,Harness 负责让”想”变成”做”。

裸模型有四个致命硬伤

所谓”裸模型”,就是没有任何外部工具支撑、赤裸裸的大语言模型。它就像一个被关在密闭房间里的天才——智商极高,但看不见外面的世界,记不住昨天发生的事,说了话也没人去执行。
硬伤一:它每天都会失忆。你跟它聊了两小时,讨论了一个复杂的项目方案。关掉窗口,第二天回来——它什么都不记得了。每次都要从头解释背景,就像在给一个每天失忆的实习生重新培训。
硬伤二:它只能”说”不能”做”。它可以写出一段代码,但它没法运行这段代码来验证对不对。它就像一个只在纸上画图纸、从来不去工地的建筑师——理论上头头是道,实践中漏洞百出。
硬伤三:它的知识有”保质期”。每个模型都有一个训练截止日期,之后发生的一切它统统不知道。你问它上个月刚更新的 API 怎么用,它可能自信满满地给你一个根本不存在的答案——这比”不知道”更危险。
硬伤四:它没有工作台。它不能创建文件,不能管理项目结构,不能运行构建工具。写一个独立的函数可以,搭一个完整的工程项目?完全不可能。
这四个硬伤,恰好说明了一件事:光有聪明的大脑,远远不够。

Harness 的六件”装备”

好消息是,这四个硬伤都有对应的解法,它们共同构成了 Harness 的六大核心组件。

装备一:文件系统——给 Agent 一张工作台

文件系统是最朴素的组件,朴素到很多人忽略了它的存在。但它是一切工程活动的地基。
有了文件系统,Agent 可以把中间结果写入文件、多个 Agent 之间可以通过文件共享信息、配合 Git 还能随时回滚错误操作。最关键的一点是:文件系统 + Git 给了 Agent 试错的勇气。反正随时能回滚,为什么不大胆尝试?

装备二:Bash + 沙箱——让 Agent 从”说”变成”做”

有了终端环境,Agent 就能运行自己写的代码、安装依赖、执行测试、查看报错并调试。这带来了一个革命性的能力——自我验证循环:写 → 跑 → 看报错 → 修 → 再来。
数据很直观:具备这个循环的 Agent,编程任务完成率比”一次性生成”高出 40%–60%。这个提升,完全来自 Harness,跟模型本身没关系。
当然,让 AI 随意执行代码是危险的。沙箱(隔离环境)必不可少——它限制了 CPU、内存、网络访问,确保 Agent 在一个安全的”围栏”里折腾,不会误伤宿主系统。

装备三:AGENTS.md——不用重新训练,就能给模型加知识

这是最容易被低估的组件,但可能是长期价值最高的一个。
传统上,想给模型”加知识”,你需要微调(Fine-tuning)——修改模型权重,成本高、周期长、还有副作用。AGENTS.md 提供了一条捷径:把知识写进一个 Markdown 文件,下次 Agent 启动时自动读取注入。
今天发现了一个新的最佳实践?写进去。发现了某个 API 有个坑?写进去。确定了团队的编码规范?写进去。明天 Agent 就自动”知道”了,不需要重新训练,不需要等模型供应商更新。
这种记忆还是透明的、可编辑的、可审计的——人类随时可以直接打开文件查看和修改,这是黑盒权重训练永远给不了你的掌控感。

装备四:Web Search + MCP——打破知识的”时间牢笼”

Web Search 让 Agent 能搜索互联网,获取训练数据截止日期之后的新信息。但它不只是”接个搜索 API”——好的 Web Search 组件还要负责把模糊意图转化为精准查询、过滤低质量来源、提取网页核心内容。
MCP(Model Context Protocol)则更进一步,它是”AI 世界的 USB 接口”——让 Agent 不只能”看”互联网,还能直接”连接”到各种数据源:公司内部数据库、代码仓库、项目管理工具、监控系统……只要有 MCP 接口,Agent 就能即插即用地接入。
两者结合,Agent 就像一个经验丰富的工程师,能在多个信息源之间灵活穿梭,快速定位问题、综合判断、给出方案。

装备五:上下文工程——对抗 AI 的”越用越笨”

还记得文章开头说的”用着用着就变笨了”?这个现象有个专业名字:Context Rot(上下文腐烂)
随着对话推进,上下文窗口里堆积的信息越来越多——早期的指令、中间的讨论、工具调用的输出、错误信息……信噪比不断下降,模型的注意力被分散,推理质量随之退化。
上下文工程就是对抗这种”熵增”的手段:定期压缩历史信息、把大段工具输出卸载到文件里、根据任务阶段动态加载不同知识、把上下文分层管理……说白了,就是帮模型”清理大脑”,让它始终保持在最佳状态
这是 Harness 里最”软”的组件,没有具体的工具,只有方法论。但恰恰是它,对 Agent 实际表现的影响最大。

装备六:编排 + Hooks——从单兵作战到集团军

当任务复杂到超出单个 Agent 能力上限时,就需要多个 Agent 协同。编排负责解决”谁做什么”——任务分解、子 Agent 调度、模型路由(简单任务用小模型省成本,复杂任务用大模型保质量)、结果聚合。
Hooks 则负责解决”做得对不对”——在 Agent 行为的关键节点插入自动检查:代码生成后自动跑 Lint、输出被截断时自动续接、执行敏感操作前自动做权限审计……
这种“概率性生成 + 确定性校验”的组合,是目前 Agent 工程里最有效的质量保障策略。模型的创造力被充分发挥,工程的严谨性兜住了质量底线。

有一根线,把六件装备串在一起

六大组件之外,还有一个贯穿始终的要素:System Prompt
它不是第七个组件,但它是整套系统的神经中枢。它定义 Agent 的角色边界(”你是谁”和”你不是谁”)、注入必要的领域知识、约束安全规则,并通过定义行为模式,间接影响所有其他组件的工作方式。
写 System Prompt,本质上就是在制定这套系统的”行为宪法”——它不直接做任何事,但它决定了所有事怎么做。

最后,一个值得记住的结论

模型决定了 Agent 能力的下限,Harness 决定了 Agent 能力的上限。
下次当你的 AI 助手表现不如预期,别急着去找更贵的模型。先问自己几个问题:它有没有持久化的记忆?它能不能运行自己的代码?它的上下文腐烂了吗?它有没有实时获取信息的能力?
也许,你需要的不是一匹更强壮的马,而是一套更好的挽具。模型提供智能,Harness 让智能变得有用。如果你不是模型本身,那你就是 Harness 的一部分。
欢迎持续关注!爱跑步的程序员小也 为您带来最实用的AI 前沿报道👇