工具越多、AI越傻?这招帮它变聪明

摘要：给 AI 助手接上越来越多的外部工具，它有时反而变笨、变慢、变贵。Hermes Agent 新上线的 Tool Search 没换更大的模型，只是把工具的"说明书"从桌面收进书架、要用再查，同一个模型的准确率就从 49% 涨到了 74%。这篇聊聊这个很小但很顶用的机制，以及它背后那个值得每个人记一记的判断。

最近在折腾 Hermes Agent的同学们，很多人给它接了一堆外部工具：连 GitHub，连数据库，连浏览器，本来想让它更能干、能多帮我跑点活。结果它不光没变灵光，反倒慢了，每次响应还贵了不少。我当时就琢磨，这咋回事呢？说好的工具越多能力越强，怎么成了拖累？

你想啊，这就像一个新员工上班第一天，本该意气风发开始干活，结果桌上先被人堆了几百本设备说明书。纸质文档满桌乱叠，活还一个字没动，桌子先占满了，人也看懵了。我那段时间就是这种感觉——东西越加越多，它却越来越迟钝，反应慢、还容易出错，价格也跟着往上飙。明明给它配了更多"装备"，怎么反而变笨了呢？

这事儿其实挺普遍的。现在大家都在拼命给 AI 接新东西，可很多人没意识到：你每接一个工具，说白了就是往它的办公桌上又拍了一摞说明书。桌子就那么大，堆到最后，它能好使才怪。

工具多了，AI 的脑子先被说明书塞满

咱别光说抽象的，我觉得讲个真实数字最直观。Hermes 如果一套配置接了 5 个工具服务器、34 个工具，平均每一轮对话，AI 要先把大约 45000 个"字"吃进它的工作台——工作台你就理解成它当下眼前能看到的那块有限空间。这 45000 字里，大约有一半，22000 字，纯粹是工具的参数说明，跟你要问的事一点关系都没有。

更夸张的我也见过。有人实测接了 7 个工具服务器，光说明书就占了 67300 个字，硬生生把一个 20 万字容量的工作台先挤掉了三分之一多。你说你刚开口，一个字还没问呢，它就得先把这堆说明书从头背一遍。再说个细节，单单一个 GitHub 工具集，27 个工具的说明书就占了大约 18000 字——哪怕你这轮对话压根没想用 GitHub，它也得乖乖背着。

这就好比你每天早上一到公司，不管今天用不用，得先把整个文件柜从头翻一遍，确认每一本说明书都摊在桌上，万一临时要用呢。每天上班的头一件事不是干活，是搬文件。这个过程又荒诞又费劲，效率直线往下掉。

桌面被堆满，后果有两个：

• 贵、浪费钱：一次没命中缓存的请求，可能要多花 7 到 10 美分。单看不多，可你一天几十上百轮地用，加起来挺吓人。
• 挑错工具：这个更要命。AI 表面看着懂很多，可一旦面前摆着几百个用不上的选项，它反而会犯迷糊，挑错那一个。

第二点你换个场景就懂了。你让一个新同事去一个堆满几百种工具的仓库里找一把螺丝刀，他大概率要么拿错，要么愣在那儿干等。工具越多越挑花眼，挑错了还得返工。这套折腾放到 AI 身上，就是答非所问、效率滑坡。

Hermes 的解法：说明书搬进书架，要用再拿出来

先说个背景。给 AI 插工具靠的是一个叫 MCP 的接口，你可以把它想象成工具的配送员——每来一个新工具，它就往 AI 桌上又塞一叠说明书。配送员勤快是勤快，可这叠放就没完没了，桌子迟早被埋。

Hermes 想了个小招，叫 Tool Search。它没去换更大的模型，也没重新练什么更复杂的能力，就做了一件特别朴素的事：把这堆说明书都收进「书架」，桌上只留三个常用的"桥梁工具"——

• 搜书架的图书管理员（tool_search）：你喊一声"我要办入职登记"，它去书架里找最对口的那几本说明书。
• 翻目录看细节的（tool_describe）：你要看某个工具具体怎么用，它帮你把那一本调出来翻给你看。
• 真正动手用的（tool_call）：确认就是这个了，才去把工具取出来执行。

这套流程，其实就是图书馆借书：你先到搜索台查一查哪几本书跟你的事相关，再翻翻简介和目录确认这本到底讲啥，确定有用了，才去书架上把它取下来。每次只借你要的那几本，桌上再也不用堆着几百本随时落灰的书。

我觉得这套设计最难得的是那股克制劲儿。它没想着立刻给你换个更厉害的员工、或者塞个脑容量更大的模型进来，就是让眼下这个模型，先把自己的桌面理一理，干净利落地开工。你想，换个更能干的人当然好，可招人难、风险大、还得多花钱；给现有的人配一个分类清楚的书架，让他几秒钟就能定位到要用的那本，成本低得多，见效还快。

它怎么知道我要哪个工具

你可能会问，说明书一股脑全收进书架，AI 不就抓瞎了吗？怎么反而更聪明了？

关键在那个"图书管理员"用的检索法，叫 BM25。这是搜索引擎里特别经典的一套打分匹配，你就理解成按关键词的相关程度排序推荐。比如我说"帮我查一下员工入职登记"，它会先去所有工具说明的名字、描述、参数里找匹配，按相关度排个序，把最对口的几个递给你。要是实在没找到特别匹配的，它还会退一步，做最朴素的"名字里带没带这个词"的兜底，起码不让你空手而归。换成图书馆，就是你在检索台输"人事合同"，它先按书名、简介、标签给你排结果，万一没命中，再帮你扫一眼书名里带"合同"两个字的，总能给你点线索。

它的启动也很有分寸，默认是自动模式。门槛说得很清楚：只有当那些可以延后加载的工具说明书会占掉工作台 10% 以上的空间时，它才出手接管；你工具要是没几个，它压根不掺和，零额外开销。而且它每一轮都重新判断一次——工具少就一直不出场，工具一多（一般 15 个以上）才开始接手；你中途把某个工具拔了，下一轮它又自动恢复成直接显示。这种"看人下菜碟"的劲儿，我挺欣赏。

我自己试过一次。当时桌上挂着十几个工具，我让它去某个仓库里建一条任务记录。开了 Tool Search 之后，我能在界面上清楚看到它先搜了一下"创建记录"这类关键词，调出对应工具的用法看了看，确认参数对得上，才真正去执行。整个过程它没有在一堆无关工具里东张西望，干脆利落。这种"先查再用"的节奏，比它过去抱着一摞说明书边翻边猜，靠谱多了。

还有两个细节让人放心。一是那几个最核心的工具，相当于你桌上常备的笔和本子，永远不会被收进书架，随手就能拿到。二是所有的安全检查、需要你点头批准的操作，认的都是真实的工具名字，不是那个当中介的"桥梁工具"——你在界面上看到的、批准的，就是实打实那个真工具，绝不会被这层中介蒙混过去。

清空桌面后，同一个模型聪明了一大截

我觉得最有说服力的，是 Anthropic（做 Claude 那家公司）自己给模型测的一组结果。同一个模型，没换、没重练，就因为开了 Tool Search 把无关说明书清走了，准确率：Opus 4 从 49% 涨到了 74%，一口气涨了 25 个百分点；Opus 4.5 也从 79.5% 涨到了 88.1%。与此同时，工具说明书占的空间降了大约 85%。

模型一点没动，就是把桌面收拾干净了，它就又快又准又省。这事儿反过来给我提了个醒：AI 答不好，很多时候真不怪它笨，是被一堆用不上的选项给埋住了、带跑偏了。你要让它好好答，第一步往往不在于买个更贵的"大脑"，先给它腾出一张干净的桌子可能更管用。

当然，我也得实话实说，这套机制是有代价的：

• 那三个"桥梁工具"本身要占一点固定开销，这是省不掉的成本。
• 每次让图书管理员去搜工具，AI 都得多跑一轮思考，反应会慢那么一点点。

所以这招到底划不划算，得看场景。它最适合的是"工具一大堆、但每次只用其中几样"的情况——这时候省下来的远比多付的多。要是你本来就没接几个工具，再套这么一层搜索，反倒是白搭。我建议你开之前先掂量一下自己手头工具的量，别盲目跟风。

你看，插越多工具，不一定越聪明

回到开头那个困惑：为什么工具越加越多，AI 反而越慢、越笨、越贵？

我现在的体会是，这事儿真不能全赖模型不够大、算法不够牛。更多时候，是我们自己变着法子把它的桌面堆成了杂货铺。它每开工一次，都得先把那一摞用不上的说明书从头搬一遍、看一遍，一轮一轮地耗，能不卡吗？

与其没完没了地惦记着换个更大更贵的模型，不如先低头看看：是不是给它塞了太多它根本用不上的东西。我让 Hermes 开了 Tool Search 之后，实际体验就是——工具照样一大堆，但桌上清清爽爽，它反而更省钱、答得也更准。这套东西当然不是完美无缺，可这个思路我觉得比一味追更大的模型踏实多了。一个几十行的检索小机制，效果有时候比换模型还猛。

怎么样，你要不要也回头看看，自己那张办公桌上堆着的一摞摞"用不上的资料"，是不是早就拖慢了你呢？

参考信息来源

• Hermes Agent 官方文档 · Tool Search 功能页（hermes-agent.nousresearch.com/docs）
• MarkTechPost：《Hermes Agent Ships Tool Search for MCP: Anthropic Evals Show 49% to 74% Accuracy Gain on Opus 4》（2026-05-29）
• Anthropic 工程团队关于 MCP 工具上下文开销与 Tool Search 的公开数据
• 社区实测：claude-code issue #11364（7 个 MCP 服务器占用 67,300 tokens）