Anthropic 高级工具调用:让 Claude 效率提升 85%-夜雨聆风

Anthropic 高级工具调用:让 Claude 效率提升 85%

当你的 AI Agent 需要同时对接几十个工具时，光是加载工具定义就要消耗 10 万+ token，实际任务还没开始，上下文窗口已经快满了。Anthropic 通过三个关键特性，让 Claude 的工具调用效率提升了 85%，准确率提升了 18 个百分点。

来源链接：

1. Anthropic 官方博客：Introducing advanced tool use on the Claude Developer Platform https://www.anthropic.com/engineering/advanced-tool-use

这篇文章源自 Anthropic 工程团队在 2025 年 11 月 24 日的官方发布。作为开发者，我们都经历过这样的尴尬：给 AI Agent 配了一堆工具，结果它要么找不到正确的工具，要么传参数传错了，要么干脆把整个 10MB 日志文件塞进上下文窗口导致后续推理出错。

Anthropic 这次发布的三个 beta 特性——Tool Search Tool、Programmatic Tool Calling 和 Tool Use Examples——不是简单的优化补丁，而是从根本上重新思考了”AI Agent 如何与工具协作”这个问题。

让我们从实际痛点出发，看看这些特性到底解决了什么。

痛点一：工具定义吃掉了上下文窗口

假设你要搭建一个企业级运维 Agent，需要对接：

• GitHub：35 个工具（26K tokens）

• Slack：11 个工具（21K tokens）

• Sentry：5 个工具（3K tokens）

• Grafana：5 个工具（3K tokens）

• Splunk：2 个工具（2K tokens）

总共 58 个工具，消耗约 55,000 tokens——这还只是工具定义，对话历史、系统提示词都还没算。再加上 Jira（17K tokens），你的 Agent 还没开始干活，上下文窗口已经吃掉了 10 万+ token。

更糟糕的是，当工具太多时，Claude 经常会选错工具。比如 notification-send-user 和 notification-send-channel 长得太像，在几十个工具里挑选时出错概率很高。

Tool Search Tool：按需发现，token 使用减少 85%

Anthropic 的解决方案是让 Claude 像人一样搜索工具，而不是一次性加载所有定义。

工作流程：

1. 开始时只加载一个 Tool Search Tool（500 tokens）

2. 当 Claude 需要操作 GitHub 时，搜索 “github”

3. 系统返回 github.createPullRequest 和 github.listIssues 的完整定义（3K tokens）

4. 其他 50+ 个工具（Slack、Jira、Google Drive）保持休眠状态

传统方案 vs Tool Search Tool：

在 MCP 评估测试中：

• Claude Opus 4：准确率从 49% 提升到 74%

• Claude Opus 4.5：准确率从 79.5% 提升到 88.1%

实现方式：

只需在工具定义中添加 defer_loading: true 标记：

对于整个 MCP 服务器，可以批量延迟加载，但保留高频工具：

痛点二：中间结果污染上下文

考虑一个常见业务场景：检查 Q3 差旅超预算的团队成员。

你有三个工具：

• get_team_members(department) → 返回 20 人

• get_expenses(user_id, quarter) → 每人 50-100 条费用记录

• get_budget_by_level(level) → 查询预算限额

传统方案的问题：

1. 调用 get_team_members → 20 条记录进入上下文

2. 为每个人调用 get_expenses → 2000+ 条费用记录全部进入上下文（50KB+）

3. Claude 手动求和、对比预算、筛选超标者

4. 每次工具调用需要一次完整推理（20+ 次推理 = 巨大延迟）

最终结果：上下文窗口被 2000 条中间数据塞满，Claude 还要在这堆数据里做”人肉计算器”。

Programmatic Tool Calling：用代码编排工具，token 减少 37%

Anthropic 让 Claude 写 Python 代码来编排工具调用，而不是每次都通过自然语言推理。

工作流程：

Claude 生成这样的 Python 脚本：

关键点：

• 2000+ 条费用记录在代码执行环境中处理，不进入 Claude 的上下文

• Claude 只看到最终结果：[{"name": "Alice", "spent": 12500, "limit": 10000}, ...]

• 20+ 次工具调用变成 1 次推理 + 代码执行

Programmatic Tool Calling 执行流程：

效果数据：

• Token 消耗：从 43,588 降到 27,297（减少 37%）

• 知识检索任务准确率：从 25.6% 提升到 28.5%

• GIA 基准测试：从 46.5% 提升到 51.2%

实现方式：

在工具定义中添加 allowed_callers 字段：

当代码调用 get_expenses() 时，你会收到带有 caller 字段的工具请求：

工具结果返回到代码环境继续执行，而不是回到 Claude 的上下文。

痛点三：JSON Schema 无法表达”怎么用”

看这个工单创建工具的 Schema：

Schema 定义了”什么是合法的”，但回答不了：

• due_date 用 “2024-11-06” 还是 “Nov 6, 2024″？

• reporter.id 是 UUID 还是 “USR-12345″？

• 什么时候需要填 reporter.contact？

• escalation.level 和 priority 有什么关联？

结果就是 Claude 经常传错参数格式，或者该填的没填、不该填的瞎填。

Tool Use Examples：用示例教会正确用法，准确率从 72% 提升到 90%

Anthropic 让你在工具定义中直接提供示例调用：

从这三个示例，Claude 学会了：

• 格式约定：日期用 YYYY-MM-DD，用户 ID 格式是 USR-XXXXX，标签用 kebab-case

• 嵌套结构规则：如何构造带有嵌套 contact 的 reporter 对象

• 可选字段策略：

• Critical bug → 需要完整联系方式 + 升级配置 + 紧急 SLA

• Feature request → 只需要 reporter 基本信息

• 内部任务 → 只需要标题

效果： 复杂参数处理准确率从 72% 提升到 90%。

什么时候用这些特性？

Anthropic 给出了明确的使用场景建议：

Tool Search Tool 最适合：

• 工具定义消耗 >10K tokens

• 遇到工具选择错误问题

• 使用多个 MCP 服务器

• 工具库 ≥10 个

Programmatic Tool Calling 最适合：

• 处理大数据集，只需要聚合结果

• 多步骤工作流（≥3 个依赖调用）

• 需要过滤/排序/转换工具结果

• 并行操作（例如检查 50 个端点）

Tool Use Examples 最适合：

• 复杂嵌套结构（合法 JSON ≠ 正确用法）

• 有很多可选参数且使用模式重要

• API 有领域特定约定（Schema 无法表达）

• 相似工具需要区分用法

不推荐使用的场景：

• 工具很少（<10 个）

• 单次简单工具调用

• 工具返回结果很小

• Schema 已经足够明确

写在最后

这三个特性背后的核心思想是：让 AI Agent 像人类工程师一样工作——按需查找工具、用代码编排复杂逻辑、从示例中学习最佳实践。

从 Hacker News 和开发者社区的反馈来看，大家对 Programmatic Tool Calling 和 Tool Use Examples 的评价较高，认为这是”经验丰富的开发者已经在手动做的事情，现在终于标准化了”。对于 Tool Search Tool，有开发者担心这会带来厂商锁定和调试复杂度，但也有人认为这确实解决了 MCP 的核心痛点。

Anthropic 团队在文章结尾提到，这些特性让他们成功构建了 Claude for Excel——用 Programmatic Tool Calling 处理数千行表格数据而不会爆掉上下文窗口。这也许是最好的证明：这些不是纸面上的理论优化，而是真正在生产环境中解决问题的工具。

如果你正在构建需要对接大量 API 的 AI Agent，现在是时候试试这些 beta 特性了。

参考资料：