为什么你的 AI 不好用:模型没问题,是你的＂战甲＂和＂底座＂都有问题

今天读到两篇文章，一篇讲 AI Agent 的工程架构，一篇讲人的认知局限。两篇放在一起看，正好回答了一个绝大多数人都在困惑的问题：

为什么同样的 AI 工具，别人用得风生水起，我用起来就差点意思？

答案不在模型，不在工具，甚至不在"会不会用"。

答案在两个地方：你给 AI 搭的"战甲"，和你自己身上的"底座"。

一、Agent = Model + Harness：你以为是模型的问题，其实是 harness 的锅

Akash Thakur 在一篇技术文章里梳理了一个事实，这个公式太巧妙了！

Agent = Model + Harness。

LLM 是大脑，但它本身不能记东西、不能操作文件、不能调用 API、不知道自己的答案对不对。就像把一个极其聪明的顾问关在一个没有电话、没有电脑、没有上次会议记录的房间里。

Harness（马鞍/战甲）就是你围绕模型搭建的一切：指令系统、工具接入、循环机制、验证检查、日志记录。

用一个很准的类比：

Tony（LLM）是天才，但没有钢铁侠战甲（harness），他只是一个穿 T 恤的男人。

战甲不提供智力，但让智力真正有用。

最震撼的数据来自 LangChain 的研究：仅仅更换 harness，同一个模型在编程基准上的排名从第 30 名升到了第 5 名。

模型没变。变的是 harness。

"今天模型能做到的和你实际看到的之间的差距，很大程度上是 harness 的差距。"

一个还不错的模型配一个很好的 harness，打败一个很好的模型配一个很烂的 harness。

二、个人层面的索洛悖论：到处都是 AI，就是看不到效率提升

但问题没那么简单。

Borretti 写了一篇很诚实的文章，标题叫"人力瓶颈"。他指出一个让人不舒服的事实：

大多数人用不好 AI，不是因为 AI 不够强，是因为他们自己的内部瓶颈是外部工具触碰不到的。

他称之为"个人层面的索洛悖论"——经济学上的索洛悖论是"到处都看得见计算机，就是看不见生产率"。个人版就是：到处都看得见 AI 工具，就是看不见效率提升。

原因有两个：

第一，没有严肃的应用情境。 工具在找问题，不是问题在找工具。想开发 AI 记忆卡片 App 的人，自己根本不用记忆卡片。想打造"第二大脑"的人，从来没有什么需要大量阅读的硬任务。

第二，人的内部瓶颈是外部工具无法改变的。

Borretti 自己有 ADHD，他用 Todoist、日历、番茄钟，只能从"零"达到"勉强能用"。真正突破瓶颈的是哌甲酯——改变神经化学机制的分子。

所有番茄钟加起来，也比不上一个能结合 NET 和 DAT 的小分子。

这个类比可以推广到所有 AI 使用场景：

如果你的瓶颈是执行力，再好的 Agent 也救不了你
如果你的瓶颈是知识储备，AI 问答也帮不了你——因为你连该问什么都想不出来
如果你的瓶颈是判断力，AI 给你的答案你也无法分辨对错

人机融合的瓶颈恰恰在于人本身。

三、两个视角的交汇：三层瓶颈

把这两篇文章放在一起，得到一个完整的三层结构：

层级	瓶颈	解法	成本
第一层：模型	不够聪明、不会推理	换更强的模型	越来越高
第二层： Harness	工具、循环、验证不靠谱	工程优化	成本低，效果大
第三层：人	知识、判断力、执行力不足	学习、经验、现场痕迹	最慢，但最决定性

第二层和第三层，才是真正决定上限的。

第二层决定了 AI 能不能稳定工作。

第三层决定了 AI 能不能被用在正确的地方、产生正确的结果。

大多数人卡在哪里？

大部分人在第二层和第三层之间两头落空。

他们用着最基础的 harness（就是打开一个聊天窗口），然后抱怨模型不够聪明。但实际上，即使给他们一个顶级的 harness，他们也不知道该让 AI 干什么。

四、"好 harness"的定义：不是功能多，是匹配场景

很多人对 harness 的理解是"功能越多越好"——要会编程、会搜网页、会操作浏览器、会管理文件……

但 Borretti 的文章提醒我们：如果没有严肃的应用情境，再多的功能也只是玩具。

一个好的 harness，不是"功能全"，而是"和你的真实需求匹配"。

在电力交易这个场景里，一个好的 harness 长什么样？

它不需要会写代码、会搜网页、会做 PPT。它需要：

上下文：实时电价、节点数据、天气预报、历史策略——Agent 可读取
工具：查询现货价格、计算价差、对比预测——精确可用
循环：定时检查、异常检测、信号生成——自动执行
验证：预测准确率校验、策略回测——确保不瞎说
边界：什么该自动执行、什么必须人工确认——不越界

这套 harness 可能比 Claude Code 简单一百倍，但它在电力交易场景里，比 Claude Code 有用一万倍。

场景越具体，harness 越简单，但价值越大。

五、人的底座：为什么"现场痕迹"值钱

回到第三层——人。

我们之前写过一篇《想转型 AI 的人，大多死在这件事上》，核心观点是：

你不是白纸，你是带着现场痕迹的人。

这和 Borretti 说的"知识是瓶颈"完全吻合。

如果你没有相关知识，就无法理解问题本身，也无法理解问题的重要性，更无法判断答案的正确性，因此你根本不会想到要提问。

一个在电力行业干了十年的人，他知道：

哪个环节的不靠谱率最高
哪个规则改了但没人通知
哪个数据是关系最大
哪个时间节点最关键

这些东西不在行业报告里，也不在 AI 模型的训练数据里。它们在现场，在人的脑子里。

这就是为什么"领域专家 + AI"比"纯技术人员 + AI"更有价值。

不是因为领域专家更会编程，而是因为他知道该问什么问题、该让 AI 干什么、干出来的东西对不对。

Borretti 得出了一个反直觉的结论：

教育的回报如今更高，因为聪明、受过良好教育的人能够从 AI 中获得更多益处。

不是 AI 拉平了差距，是 AI 放大了差距。

AI 不是拉平器，它是放大器。 它会放大已有的差距，而不是抹平它们。

六、所以你应该做什么

三层瓶颈，对应三个动作：

第一层：别纠结模型。 GPT-5 和 Claude 4 的差距，远小于"好 harness + 普通人"和"差 harness + 专家"的差距。选一个够用的，别追新。

第二层：搭好自己的 harness。 不是"学会用 10 个 AI 工具"，而是"找到你最常做的那件事，给它搭一个自动化流程"。比如：

如果你每天要看电价预测，搭一个自动聚合 + 对比的流程
如果你每周要写报告，搭一个数据拉取 + 初稿生成的流程
如果你经常要做竞品分析，搭一个信息采集 + 摘要的流程

不需要很复杂。一个 cron job + 一个脚本 + 一个 prompt，就是 harness。

第三层：补自己的底座。 这是最慢的，但也是最重要的。

在你的行业里继续深挖，积累"现场痕迹"
补 AI 底层地图：Agent、RAG、工作流分别在解决什么问题
培养判断力：看见一个概念，知道它是不是只能停在 PPT 里

勇气只负责把你推出去，路线感负责让你落地。

写在最后

两篇文章，一个讲机器，一个讲人。

机器那篇说：模型没问题，harness 才是差距所在。

人那篇说：harness 再好，人的内部瓶颈也决定上限。

合在一起，答案很清楚了：

搭好 harness，补强底座。别追新模型，别迷信工具，别把自己当白纸。

AI 时代最大的误区，是以为问题出在模型不够聪明。

其实问题出在：你的战甲太薄，你的底座太浅。

战甲可以自己搭，底座只能自己攒。

这两件事，都比"等下一个大模型发布"重要一百倍。

参考来源：Akash Thakur《Harness Engineering for AI Agents》（dev.to, 2026-05-28）；Borretti《人力瓶颈》；本号前期文章《想转型 AI 的人，大多死在这件事上》