构建有效的AI Agent:Anthropic的工程实践指南

构建有效的AI Agent：Anthropic的工程实践指南

原文：Building effective agents | Anthropic, 2024

引言

过去两年，AI Agent这个词被用烂了。但当你真正动手构建时，会发现一个尴尬的事实：最成功的Agent实现往往不是最复杂的那些。

Anthropic在过去一年与数十个团队合作，横跨多个行业。他们发现，真正跑在生产环境的Agent系统，用的都是简单、可组合的模式，而非复杂的框架或专用库。

这篇文章的核心问题：如何在不引入不必要复杂性的前提下，构建出可靠、可维护的Agent系统？

核心概念：Workflow vs Agent

Anthropic首次明确区分了两个概念，这是整篇文章的基石。

定义

类型	定义	控制方式
Workflow	LLM和工具通过预定义代码路径编排的系统	开发者控制流程
Agent	LLM动态指导自己的过程和工具使用的系统	LLM自主决策

类比理解

想象你要完成一个任务：

• Workflow 像流水线工厂：每个工位做什么、顺序如何，都是预先设计好的。工人（LLM）只负责执行分配给自己的环节。
• Agent 像项目经理：拿到目标后，自己拆解任务、决定先做什么后做什么、用什么工具、什么时候收手。

关键洞察：Workflow适合任务路径明确的场景；Agent适合开放性问题，你无法预先知道需要多少步。

技术原理：从简单到复杂的构建模式

基础构建块：增强型LLM

所有Agent系统的起点都是一个增强型LLM——给基础模型配上：

• 检索（Retrieval）：从外部知识库获取信息
• 工具（Tools）：调用外部API或函数
• 记忆（Memory）：保存和复用上下文信息

模式一：Prompt Chaining（提示链）

把任务拆成固定步骤，每步一个LLM调用，上一步输出作为下一步输入。

适用场景：

• 生成营销文案 → 翻译成其他语言
• 写文档大纲 → 检查大纲 → 基于大纲写正文

核心思想：用延迟换准确性，让每个LLM调用处理更简单的子任务。

模式二：Routing（路由）

先分类输入，再分发到专门的下游处理。

适用场景：

• 客服系统按问题类型路由
• 按复杂度选择不同模型（省钱）

模式三：Parallelization（并行化）

多个LLM同时工作，结果通过程序聚合。

两种变体：

• 分段（Sectioning）：把任务拆成独立子任务并行跑
• 投票（Voting）：同一任务跑多次，取多数结果

适用场景：

• 代码安全审查：多个prompt分别检查不同漏洞类型
• 内容审核：多个视角评估降低误判

模式四：Orchestrator-Workers（协调者-工作者）

中心LLM动态拆解任务，分配给工作者LLM，再综合结果。

与并行化的区别：子任务不是预定义的，由协调者根据输入动态决定。

适用场景：

• 代码修改涉及多个文件（改哪些、怎么改，事先不知道）
• 复杂搜索任务需要从多个来源收集信息

模式五：Evaluator-Optimizer（评估-优化）

一个LLM生成，另一个LLM评估，循环迭代直到达标。

适用场景：

• 文学翻译：评估器指出 nuances 问题，生成器改进
• 复杂搜索：评估器判断是否需要进一步搜索

真正的Agent：何时使用

上述五种都是Workflow——预定义代码路径。真正的Agent是另一回事：

Agent的核心特征：

1. 自主规划：LLM自己决定下一步做什么
2. 工具使用：根据环境反馈调用工具
3. 循环执行：可能运行很多轮
4. 检查点：可暂停等待人工反馈

何时使用Agent：

• 开放性问题，无法预测需要多少步
• 无法硬编码固定路径
• 你愿意信任LLM的决策能力
• 有明确的成功标准

代价：更高的延迟和成本，错误可能累积。

实践意义：工程落地的启示

原则一：先判断任务是否真的需要Agent

# 决策树def should_use_agent(task):    if task.has_clear_fixed_steps():        return "Use Workflow (Prompt Chaining)"    elif task.needs_dynamic_decomposition():        return "Use Workflow (Orchestrator-Workers)"    elif task.is_open_ended() and task.has_clear_success_criteria():        return "Consider Agent (with guardrails)"    else:        return "Start with single LLM call + retrieval"

原则二：默认从简单开始

Anthropic的建议顺序：

1. 单LLM调用 + 检索/上下文示例（大部分场景够用）
2. Workflow（需要多步骤但路径明确）
3. Agent（开放性问题，需要自主决策）

原则三：工具设计比Prompt更重要

Anthropic在构建SWE-bench Agent时发现：优化工具的时间比优化Prompt还多。

好的工具设计原则（ACI - Agent-Computer Interface）：

# 反例：容易出错的工具def edit_file_relative(filepath: str, content: str):  # 相对路径容易出错    ...# 正例：防呆设计def edit_file_absolute(abs_filepath: str, content: str):  # 强制绝对路径    """    编辑文件的绝对路径。    Args:        abs_filepath: 文件的绝对路径（如 /home/user/project/src/main.py）        content: 新的文件内容    Example:        edit_file_absolute("/home/user/project/src/main.py", "print('hello')")    """    ...

Poka-yoke（防呆）原则：让错误难以发生。

原则四：保持透明

Agent的每一步决策都应该可见：

• 规划步骤显式展示
• 工具调用和结果记录
• 中间状态可检查

代码示例：从Workflow到Agent

简单Workflow示例（Prompt Chaining）

import anthropicclient = anthropic.Anthropic()def prompt_chaining_workflow(user_input: str) -> str:    # 步骤1：生成大纲    outline_response = client.messages.create(        model="claude-3-5-sonnet-20241022",        max_tokens=1024,        messages=[{            "role": "user",            "content": f"为以下主题生成大纲：{user_input}"        }]    )    outline = outline_response.content[0].text    # 检查点（gate）    if len(outline.split('\n')) < 3:        return "大纲太短，重新生成"    # 步骤2：基于大纲写正文    final_response = client.messages.create(        model="claude-3-5-sonnet-20241022",        max_tokens=2048,        messages=[{            "role": "user",            "content": f"基于以下大纲撰写详细内容：\n{outline}"        }]    )    return final_response.content[0].text

简单Agent示例

import anthropicclient = anthropic.Anthropic()def simple_agent(user_goal: str, max_iterations: int = 10) -> str:    """    一个简单的Agent，可以搜索和计算    """    tools = [        {            "name": "search",            "description": "搜索信息",            "input_schema": {                "type": "object",                "properties": {                    "query": {"type": "string"}                },                "required": ["query"]            }        },        {            "name": "calculate",            "description": "执行计算",            "input_schema": {                "type": "object",                "properties": {                    "expression": {"type": "string"}                },                "required": ["expression"]            }        }    ]    messages = [{"role": "user", "content": user_goal}]    iteration = 0    while iteration < max_iterations:        response = client.messages.create(            model="claude-3-5-sonnet-20241022",            max_tokens=1024,            tools=tools,            messages=messages        )        # 检查是否完成任务        if response.stop_reason == "end_turn":            return response.content[0].text        # 处理工具调用        if response.stop_reason == "tool_use":            tool_use = response.content[-1]            tool_name = tool_use.name            tool_input = tool_use.input            # 模拟工具执行（实际应调用真实工具）            if tool_name == "search":                result = f"搜索结果：关于 '{tool_input['query']}' 的信息..."            elif tool_name == "calculate":                result = f"计算结果：{eval(tool_input['expression'])}"            # 添加工具结果到上下文            messages.append({                "role": "assistant",                "content": response.content            })            messages.append({                "role": "user",                "content": [                    {                        "type": "tool_result",                        "tool_use_id": tool_use.id,                        "content": result                    }                ]            })        iteration += 1    return "达到最大迭代次数，任务未完成"

总结

Anthropic这篇文章的核心观点可以用一句话概括：

构建有效Agent的关键不是追求最复杂的系统，而是构建最适合你需求的系统。

三个核心原则：

1. 简单优先：从单LLM调用开始，证明需要复杂性时再增加
2. 透明可观测：显式展示Agent的规划步骤和决策过程
3. 工具即接口：把工具设计当作Agent-Computer Interface（ACI）来打磨

框架可以帮助快速启动，但生产环境应该敢于减少抽象层，用基础组件直接构建。毕竟，最成功的实现往往只需要几行代码就能表达清楚。

参考

• Building effective agents - Anthropic, Dec 2024
• Model Context Protocol - Anthropic
• SWE-bench Verified - Anthropic