今天读到两篇文章,一篇讲 AI Agent 的工程架构,一篇讲人的认知局限。两篇放在一起看,正好回答了一个绝大多数人都在困惑的问题:
为什么同样的 AI 工具,别人用得风生水起,我用起来就差点意思?
答案不在模型,不在工具,甚至不在"会不会用"。
答案在两个地方:你给 AI 搭的"战甲",和你自己身上的"底座"。
一、Agent = Model + Harness:你以为是模型的问题,其实是 harness 的锅
Akash Thakur 在一篇技术文章里梳理了一个事实,这个公式太巧妙了!
Agent = Model + Harness。
LLM 是大脑,但它本身不能记东西、不能操作文件、不能调用 API、不知道自己的答案对不对。就像把一个极其聪明的顾问关在一个没有电话、没有电脑、没有上次会议记录的房间里。
Harness(马鞍/战甲)就是你围绕模型搭建的一切:指令系统、工具接入、循环机制、验证检查、日志记录。
用一个很准的类比:
Tony(LLM)是天才,但没有钢铁侠战甲(harness),他只是一个穿 T 恤的男人。
战甲不提供智力,但让智力真正有用。
最震撼的数据来自 LangChain 的研究:仅仅更换 harness,同一个模型在编程基准上的排名从第 30 名升到了第 5 名。
模型没变。变的是 harness。
"今天模型能做到的和你实际看到的之间的差距,很大程度上是 harness 的差距。"
一个还不错的模型配一个很好的 harness,打败一个很好的模型配一个很烂的 harness。
二、个人层面的索洛悖论:到处都是 AI,就是看不到效率提升
但问题没那么简单。
Borretti 写了一篇很诚实的文章,标题叫"人力瓶颈"。他指出一个让人不舒服的事实:
大多数人用不好 AI,不是因为 AI 不够强,是因为他们自己的内部瓶颈是外部工具触碰不到的。
他称之为"个人层面的索洛悖论"——经济学上的索洛悖论是"到处都看得见计算机,就是看不见生产率"。个人版就是:到处都看得见 AI 工具,就是看不见效率提升。
原因有两个:
第一,没有严肃的应用情境。 工具在找问题,不是问题在找工具。想开发 AI 记忆卡片 App 的人,自己根本不用记忆卡片。想打造"第二大脑"的人,从来没有什么需要大量阅读的硬任务。
第二,人的内部瓶颈是外部工具无法改变的。
Borretti 自己有 ADHD,他用 Todoist、日历、番茄钟,只能从"零"达到"勉强能用"。真正突破瓶颈的是哌甲酯——改变神经化学机制的分子。
所有番茄钟加起来,也比不上一个能结合 NET 和 DAT 的小分子。
这个类比可以推广到所有 AI 使用场景:
- 如果你的瓶颈是执行力,再好的 Agent 也救不了你
- 如果你的瓶颈是知识储备,AI 问答也帮不了你——因为你连该问什么都想不出来
- 如果你的瓶颈是判断力,AI 给你的答案你也无法分辨对错
人机融合的瓶颈恰恰在于人本身。
三、两个视角的交汇:三层瓶颈
把这两篇文章放在一起,得到一个完整的三层结构:
| 层级 | 瓶颈 | 解法 | 成本 |
|---|---|---|---|
| 第一层: 模型 |
不够聪明、不会推理 | 换更强的模型 | 越来越高 |
| 第二层: Harness |
工具、循环、验证不靠谱 | 工程优化 | 成本低,效果大 |
| 第三层:人 | 知识、判断力、执行力不足 | 学习、经验、现场痕迹 | 最慢,但最决定性 |
第二层和第三层,才是真正决定上限的。
第二层决定了 AI 能不能稳定工作。
第三层决定了 AI 能不能被用在正确的地方、产生正确的结果。
大多数人卡在哪里?
大部分人在第二层和第三层之间两头落空。
他们用着最基础的 harness(就是打开一个聊天窗口),然后抱怨模型不够聪明。但实际上,即使给他们一个顶级的 harness,他们也不知道该让 AI 干什么。
四、"好 harness"的定义:不是功能多,是匹配场景
很多人对 harness 的理解是"功能越多越好"——要会编程、会搜网页、会操作浏览器、会管理文件……
但 Borretti 的文章提醒我们:如果没有严肃的应用情境,再多的功能也只是玩具。
一个好的 harness,不是"功能全",而是"和你的真实需求匹配"。
在电力交易这个场景里,一个好的 harness 长什么样?
它不需要会写代码、会搜网页、会做 PPT。它需要:
- 上下文:实时电价、节点数据、天气预报、历史策略——Agent 可读取
- 工具:查询现货价格、计算价差、对比预测——精确可用
- 循环:定时检查、异常检测、信号生成——自动执行
- 验证:预测准确率校验、策略回测——确保不瞎说
- 边界:什么该自动执行、什么必须人工确认——不越界
这套 harness 可能比 Claude Code 简单一百倍,但它在电力交易场景里,比 Claude Code 有用一万倍。
场景越具体,harness 越简单,但价值越大。
五、人的底座:为什么"现场痕迹"值钱
回到第三层——人。
我们之前写过一篇《想转型 AI 的人,大多死在这件事上》,核心观点是:
你不是白纸,你是带着现场痕迹的人。
这和 Borretti 说的"知识是瓶颈"完全吻合。
如果你没有相关知识,就无法理解问题本身,也无法理解问题的重要性,更无法判断答案的正确性,因此你根本不会想到要提问。
一个在电力行业干了十年的人,他知道:
- 哪个环节的不靠谱率最高
- 哪个规则改了但没人通知
- 哪个数据是关系最大
- 哪个时间节点最关键
这些东西不在行业报告里,也不在 AI 模型的训练数据里。它们在现场,在人的脑子里。
这就是为什么"领域专家 + AI"比"纯技术人员 + AI"更有价值。
不是因为领域专家更会编程,而是因为他知道该问什么问题、该让 AI 干什么、干出来的东西对不对。
Borretti 得出了一个反直觉的结论:
教育的回报如今更高,因为聪明、受过良好教育的人能够从 AI 中获得更多益处。
不是 AI 拉平了差距,是 AI 放大了差距。
AI 不是拉平器,它是放大器。 它会放大已有的差距,而不是抹平它们。
六、所以你应该做什么
三层瓶颈,对应三个动作:
第一层:别纠结模型。 GPT-5 和 Claude 4 的差距,远小于"好 harness + 普通人"和"差 harness + 专家"的差距。选一个够用的,别追新。
第二层:搭好自己的 harness。 不是"学会用 10 个 AI 工具",而是"找到你最常做的那件事,给它搭一个自动化流程"。比如:
- 如果你每天要看电价预测,搭一个自动聚合 + 对比的流程
- 如果你每周要写报告,搭一个数据拉取 + 初稿生成的流程
- 如果你经常要做竞品分析,搭一个信息采集 + 摘要的流程
不需要很复杂。一个 cron job + 一个脚本 + 一个 prompt,就是 harness。
第三层:补自己的底座。 这是最慢的,但也是最重要的。
- 在你的行业里继续深挖,积累"现场痕迹"
- 补 AI 底层地图:Agent、RAG、工作流分别在解决什么问题
- 培养判断力:看见一个概念,知道它是不是只能停在 PPT 里
勇气只负责把你推出去,路线感负责让你落地。
写在最后
两篇文章,一个讲机器,一个讲人。
机器那篇说:模型没问题,harness 才是差距所在。
人那篇说:harness 再好,人的内部瓶颈也决定上限。
合在一起,答案很清楚了:
搭好 harness,补强底座。别追新模型,别迷信工具,别把自己当白纸。
AI 时代最大的误区,是以为问题出在模型不够聪明。
其实问题出在:你的战甲太薄,你的底座太浅。
战甲可以自己搭,底座只能自己攒。
这两件事,都比"等下一个大模型发布"重要一百倍。
参考来源:Akash Thakur《Harness Engineering for AI Agents》(dev.to, 2026-05-28);Borretti《人力瓶颈》;本号前期文章《想转型 AI 的人,大多死在这件事上》
夜雨聆风