构建有效的AI Agent:Anthropic的工程实践指南
原文:Building effective agents | Anthropic, 2024
引言
过去两年,AI Agent这个词被用烂了。但当你真正动手构建时,会发现一个尴尬的事实:最成功的Agent实现往往不是最复杂的那些。
Anthropic在过去一年与数十个团队合作,横跨多个行业。他们发现,真正跑在生产环境的Agent系统,用的都是简单、可组合的模式,而非复杂的框架或专用库。
这篇文章的核心问题:如何在不引入不必要复杂性的前提下,构建出可靠、可维护的Agent系统?
核心概念:Workflow vs Agent
Anthropic首次明确区分了两个概念,这是整篇文章的基石。
定义
| Workflow | ||
| Agent |
类比理解
想象你要完成一个任务:
• Workflow 像流水线工厂:每个工位做什么、顺序如何,都是预先设计好的。工人(LLM)只负责执行分配给自己的环节。 • Agent 像项目经理:拿到目标后,自己拆解任务、决定先做什么后做什么、用什么工具、什么时候收手。
关键洞察:Workflow适合任务路径明确的场景;Agent适合开放性问题,你无法预先知道需要多少步。
技术原理:从简单到复杂的构建模式
基础构建块:增强型LLM
所有Agent系统的起点都是一个增强型LLM——给基础模型配上:
• 检索(Retrieval):从外部知识库获取信息 • 工具(Tools):调用外部API或函数 • 记忆(Memory):保存和复用上下文信息
模式一:Prompt Chaining(提示链)
把任务拆成固定步骤,每步一个LLM调用,上一步输出作为下一步输入。
适用场景:
• 生成营销文案 → 翻译成其他语言 • 写文档大纲 → 检查大纲 → 基于大纲写正文
核心思想:用延迟换准确性,让每个LLM调用处理更简单的子任务。
模式二:Routing(路由)
先分类输入,再分发到专门的下游处理。
适用场景:
• 客服系统按问题类型路由 • 按复杂度选择不同模型(省钱)
模式三:Parallelization(并行化)
多个LLM同时工作,结果通过程序聚合。
两种变体:
• 分段(Sectioning):把任务拆成独立子任务并行跑 • 投票(Voting):同一任务跑多次,取多数结果
适用场景:
• 代码安全审查:多个prompt分别检查不同漏洞类型 • 内容审核:多个视角评估降低误判
模式四:Orchestrator-Workers(协调者-工作者)
中心LLM动态拆解任务,分配给工作者LLM,再综合结果。
与并行化的区别:子任务不是预定义的,由协调者根据输入动态决定。
适用场景:
• 代码修改涉及多个文件(改哪些、怎么改,事先不知道) • 复杂搜索任务需要从多个来源收集信息
模式五:Evaluator-Optimizer(评估-优化)
一个LLM生成,另一个LLM评估,循环迭代直到达标。
适用场景:
• 文学翻译:评估器指出 nuances 问题,生成器改进 • 复杂搜索:评估器判断是否需要进一步搜索
真正的Agent:何时使用
上述五种都是Workflow——预定义代码路径。真正的Agent是另一回事:
Agent的核心特征:
1. 自主规划:LLM自己决定下一步做什么 2. 工具使用:根据环境反馈调用工具 3. 循环执行:可能运行很多轮 4. 检查点:可暂停等待人工反馈
何时使用Agent:
• 开放性问题,无法预测需要多少步 • 无法硬编码固定路径 • 你愿意信任LLM的决策能力 • 有明确的成功标准
代价:更高的延迟和成本,错误可能累积。
实践意义:工程落地的启示
原则一:先判断任务是否真的需要Agent
# 决策树def should_use_agent(task): if task.has_clear_fixed_steps(): return "Use Workflow (Prompt Chaining)" elif task.needs_dynamic_decomposition(): return "Use Workflow (Orchestrator-Workers)" elif task.is_open_ended() and task.has_clear_success_criteria(): return "Consider Agent (with guardrails)" else: return "Start with single LLM call + retrieval"原则二:默认从简单开始
Anthropic的建议顺序:
1. 单LLM调用 + 检索/上下文示例(大部分场景够用) 2. Workflow(需要多步骤但路径明确) 3. Agent(开放性问题,需要自主决策)
原则三:工具设计比Prompt更重要
Anthropic在构建SWE-bench Agent时发现:优化工具的时间比优化Prompt还多。
好的工具设计原则(ACI - Agent-Computer Interface):
# 反例:容易出错的工具def edit_file_relative(filepath: str, content: str): # 相对路径容易出错 ...# 正例:防呆设计def edit_file_absolute(abs_filepath: str, content: str): # 强制绝对路径 """ 编辑文件的绝对路径。 Args: abs_filepath: 文件的绝对路径(如 /home/user/project/src/main.py) content: 新的文件内容 Example: edit_file_absolute("/home/user/project/src/main.py", "print('hello')") """ ...Poka-yoke(防呆)原则:让错误难以发生。
原则四:保持透明
Agent的每一步决策都应该可见:
• 规划步骤显式展示 • 工具调用和结果记录 • 中间状态可检查
代码示例:从Workflow到Agent
简单Workflow示例(Prompt Chaining)
import anthropicclient = anthropic.Anthropic()def prompt_chaining_workflow(user_input: str) -> str: # 步骤1:生成大纲 outline_response = client.messages.create( model="claude-3-5-sonnet-20241022", max_tokens=1024, messages=[{ "role": "user", "content": f"为以下主题生成大纲:{user_input}" }] ) outline = outline_response.content[0].text # 检查点(gate) if len(outline.split('\n')) < 3: return "大纲太短,重新生成" # 步骤2:基于大纲写正文 final_response = client.messages.create( model="claude-3-5-sonnet-20241022", max_tokens=2048, messages=[{ "role": "user", "content": f"基于以下大纲撰写详细内容:\n{outline}" }] ) return final_response.content[0].text简单Agent示例
import anthropicclient = anthropic.Anthropic()def simple_agent(user_goal: str, max_iterations: int = 10) -> str: """ 一个简单的Agent,可以搜索和计算 """ tools = [ { "name": "search", "description": "搜索信息", "input_schema": { "type": "object", "properties": { "query": {"type": "string"} }, "required": ["query"] } }, { "name": "calculate", "description": "执行计算", "input_schema": { "type": "object", "properties": { "expression": {"type": "string"} }, "required": ["expression"] } } ] messages = [{"role": "user", "content": user_goal}] iteration = 0 while iteration < max_iterations: response = client.messages.create( model="claude-3-5-sonnet-20241022", max_tokens=1024, tools=tools, messages=messages ) # 检查是否完成任务 if response.stop_reason == "end_turn": return response.content[0].text # 处理工具调用 if response.stop_reason == "tool_use": tool_use = response.content[-1] tool_name = tool_use.name tool_input = tool_use.input # 模拟工具执行(实际应调用真实工具) if tool_name == "search": result = f"搜索结果:关于 '{tool_input['query']}' 的信息..." elif tool_name == "calculate": result = f"计算结果:{eval(tool_input['expression'])}" # 添加工具结果到上下文 messages.append({ "role": "assistant", "content": response.content }) messages.append({ "role": "user", "content": [ { "type": "tool_result", "tool_use_id": tool_use.id, "content": result } ] }) iteration += 1 return "达到最大迭代次数,任务未完成"总结
Anthropic这篇文章的核心观点可以用一句话概括:
构建有效Agent的关键不是追求最复杂的系统,而是构建最适合你需求的系统。
三个核心原则:
1. 简单优先:从单LLM调用开始,证明需要复杂性时再增加 2. 透明可观测:显式展示Agent的规划步骤和决策过程 3. 工具即接口:把工具设计当作Agent-Computer Interface(ACI)来打磨
框架可以帮助快速启动,但生产环境应该敢于减少抽象层,用基础组件直接构建。毕竟,最成功的实现往往只需要几行代码就能表达清楚。
参考
• Building effective agents - Anthropic, Dec 2024 • Model Context Protocol - Anthropic • SWE-bench Verified - Anthropic
夜雨聆风