手把手教你造一个 AI 智能体:ReAct、规划、反思三种核心模式

阅读时长：约 15 分钟
适合人群：想搞清楚 AI 智能体是怎么"思考和行动"的你

你有没有好奇过：当你让 AI 帮你查"华为最新款手机是什么"时，它是怎么做到既去搜索、又把结果整理成好看的回答的？

今天我们就来揭秘这背后的设计模式。

我们亲手造三种经典 AI 智能体——不用现成框架，从零写代码，看清楚每一行是干什么的。

为什么要自己造，而不是直接用现成框架？

这是个好问题。

用框架一行代码能搞定的事，为什么要费劲手写？

答案：你看到的是结果，不是过程。

用框架，你不知道：

• 模型输出格式是怎么被解析的？
• 工具调用失败了怎么重试？
• 智能体陷入死循环了怎么防止？

自己写一遍，这些问题都搞清楚了。之后用框架，你才是真正的"使用者"而不是"神秘力量的祭品"。

第一步：给 AI 配一双手

大语言模型本身只能"想"，不能"做"。

要让它行动，需要给它工具（Tools）。

我们先构建一个简单的工具系统：

class ToolExecutor:    def __init__(self):        self.tools = {}  # 工具注册表    def registerTool(self, name, description, func):        """注册一个工具"""        self.tools[name] = {"description": description, "func": func}    def getAvailableTools(self):        """返回所有工具的描述，给 LLM 看"""        return "\n".join([            f"- {name}: {info['description']}"            for name, info in self.tools.items()        ])

然后注册一个搜索工具：

toolExecutor.registerTool(    "Search",    "网页搜索引擎。需要回答时事或在知识库中找不到的信息时使用。",    search_function)

工具描述是整个机制最关键的部分——LLM 完全靠这段描述来判断"什么时候用这个工具"。描述写得好不好，直接决定智能体行为是否正确。

核心模式一：ReAct——边思考边行动

ReAct 是 2022 年提出的经典范式，名字来自 Reason（推理）+ Act（行动）。

它的核心思路是：像人类一样"边想边做"。

工作方式

Thought（思考）：分析情况，规划下一步Action（行动）：调用一个工具Observation（观察）：看工具返回了什么→ 重复这个循环，直到找到答案

举个真实的例子：

问题："华为最新款手机是什么？它的主要卖点是什么？"

第一步：Thought: 我需要搜索华为最新手机。这个信息在我的知识库里可能已过期。Action: Search[华为最新手机型号及主要卖点]Observation: [1] HUAWEI Mate 70：顶级拍照配置，全焦段覆盖，做工出色[2] HUAWEI Pura 80 Pro+：先锋影像技术第二步：Thought: 已有足够信息。Mate 70 和 Pura 80 Pro+ 是最新旗舰。Action: Finish[华为最新旗舰是 Mate 70 和 Pura 80 Pro+...]

整个过程透明可追溯。你能清楚看到 AI 的"心路历程"。

核心代码结构

class ReActAgent:    def run(self, question: str):        history = []        for step in range(max_steps):            # 1. 把问题+历史记录打包成提示词，喂给 LLM            prompt = build_prompt(question, history)            response = llm.think(prompt)            # 2. 从 LLM 输出中解析出 Thought 和 Action            thought, action = parse_output(response)            # 3. 如果是 Finish，结束            if action.startswith("Finish"):                return extract_answer(action)            # 4. 调用工具，获取 Observation            tool_name, tool_input = parse_action(action)            observation = tool_executor.run(tool_name, tool_input)            # 5. 把 Action+Observation 加入历史，进入下一轮            history.append(f"Action: {action}")            history.append(f"Observation: {observation}")

关键设计：max_steps 是安全阀，防止无限循环。这不是小细节，而是工程上的必须。

ReAct 的优缺点

优点	缺点
高可解释性，过程透明	每步都要调用 LLM，成本高
能动态纠错	依赖 LLM 的输出格式稳定性
自然支持多工具	可能陷入"原地打转"

核心模式二：Plan-and-Solve——先谋后动

如果说 ReAct 像侦探边调查边推理，那 Plan-and-Solve 就像建筑师——先画完整蓝图，再按蓝图施工。

工作方式

分两个明确的阶段：

1. 规划（Plan）：先生成一个完整的任务分解列表
2. 执行（Solve）：按计划逐步完成每个子任务

适合什么场景？

场景	推荐范式
实时信息查询、需要动态调整	ReAct
写报告、代码分析等结构化任务	Plan-and-Solve
需要多步骤、有明确顺序的任务	Plan-and-Solve

举例：让 AI 写一篇技术分析报告。

规划阶段：Step 1: 搜索该技术的基本定义Step 2: 搜索该技术的主要应用场景Step 3: 搜索行业评价和局限性Step 4: 整合以上信息，生成报告执行阶段：（依次执行每个步骤）

核心代码结构

class PlanAndSolveAgent:    def run(self, question: str):        # 第一步：请 LLM 制定计划        plan = self.llm.think(plan_prompt(question))        steps = parse_plan(plan)  # 解析成列表        results = []        for step in steps:            # 第二步：逐步执行            result = self.llm.think(solve_prompt(step, results))            results.append(result)        # 第三步：整合结果        final_answer = self.llm.think(integrate_prompt(question, results))        return final_answer

核心模式三：Reflection——会自我反思的 AI

这是最有意思的一个。

普通 AI：生成答案 → 输出。

带反思的 AI：生成答案 → 批评自己 → 修改 → 再批评 → 再修改 → 输出。

工作方式

生成（Generate）：产出一个初版答案反思（Reflect）：对这个答案提出批评意见完善（Refine）：根据批评修改答案→ 重复"反思-完善"，直到质量达标

一个具体例子

任务：写一段 Python 快速排序代码。

第一轮：生成：（一段代码）反思：这段代码没有处理边界情况，当列表为空或只有一个元素时会出错。第二轮：修改：（加入边界检查）反思：代码可以运行，但没有注释，可读性差。第三轮：修改：（加入注释）反思：代码完整，逻辑清晰，注释充分。通过！

这就是为什么有些 AI 写代码比另一些质量更高——它们内置了这种"自我批判"机制。

核心代码结构

class ReflectionAgent:    def run(self, task: str):        # 生成初版        response = self.llm.think(generate_prompt(task))        for _ in range(max_reflections):            # 反思：批评当前版本            critique = self.llm.think(reflect_prompt(task, response))            # 判断是否满意            if is_satisfied(critique):                break            # 根据批评修改            response = self.llm.think(refine_prompt(task, response, critique))        return response

三种模式对比总结

特性	ReAct	Plan-and-Solve	Reflection
核心思想	边想边做	先计划后执行	生成-批评-改进
适合任务	需要工具的动态任务	结构化的复杂任务	质量要求高的创作类
LLM 调用次数	多（每步一次）	中（每步骤一次）	中（生成+多轮反思）
可解释性	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐
纠错能力	动态纠错	计划前纠错	事后纠错

调试技巧：当 AI 行为异常时怎么办？

自己写智能体，难免遇到 AI"不按套路出牌"的情况。几个最实用的调试技巧：

1. 打印完整提示词

print("=== 实际发给 LLM 的提示词 ===")print(prompt)

80% 的问题出在提示词格式上，一打印就能看到。

2. 打印 LLM 原始输出

print("=== LLM 原始返回 ===")print(raw_response)

解析失败时，看原始输出就知道是 LLM 没按格式回答，还是你的解析逻辑有问题。

3. 加入少样本示例（Few-shot）

如果模型频繁输出格式错误，在提示词里加一个成功案例：

示例：Thought: 我需要搜索一下Action: Search[关键词]Observation: ...Thought: 已有足够信息Action: Finish[最终答案]

模型会按例子来。

写在最后

这三种范式，是现代 AI 智能体的"骨架"。

市面上大多数 AI 产品背后，都能找到这三种思路的影子。

• 你用的 AI 助手能联网搜索？→ ReAct 变体
• 你用的写作 AI 能生成大纲再填内容？→ Plan-and-Solve 变体
• 你用的代码 AI 会自动检查和修复错误？→ Reflection 变体

理解了这些模式，AI 智能体就不再是魔法黑盒，而是可以设计、可以调试的工程系统。

本文内容整理自 Datawhale《Hello Agents》

觉得有收获？点个赞告诉我 👇