乐于分享
好东西不私藏

AI Agent 入门第一课:什么是 AI 智能体?一文读懂核心概念

AI Agent 入门第一课:什么是 AI 智能体?一文读懂核心概念

AI Agent 入门第一课:什么是 AI 智能体?一文读懂核心概念


一、为什么你现在必须搞懂 Agent

ChatGPT 你肯定用过,但有没有发现它有个硬伤——你问它做事,它只会”说”,不会真的”动”。

AI Agent 解决的就是这个问题。它不只是生成文字,它能感知环境、做决策、调工具、完成任务。

简单说:ChatGPT 是一个很厉害的”嘴”,Agent 是一个会干活的”手”。

这是 AI 从”能说”到”能做”的分水岭,搞懂它,你才算真的入门了。


二、到底什么是 AI Agent?用类比讲清楚

我自己研究了半天,觉得一句话说得最准:

AI Agent = 一个能在环境中感知信息、做出决策、并执行行动的系统。

听起来还是有点抽象?咱们拆开来看。

三个核心要素

① 环境(Environment)

Agent 活在某个”世界”里。这个世界可以是你的电脑文件系统、一个网页、一个数据库,甚至是另一个 AI 的输出。它感知的信息,叫做”观察”(Observation)。

② 感知(Perception)

Agent 接收信息——文字、图片、代码、用户输入……这些都是它的”眼睛”看到的东西。

③ 执行(Action)

Agent 不只是”想”,它还会”做”。调用搜索引擎、写文件、发邮件、触发 API——这些都是它的行动。

LLM 是大脑

这三件事怎么串起来?靠 LLM(大语言模型)当大脑。它负责:看懂输入 → 推理该做什么 → 选择用哪个工具 → 判断任务是否完成。

你可以把它理解为:LLM 是 Agent 的「神经系统」,没有它,Agent 只是个壳。

工具调用(Tool Use)

大脑有了,还得有手。Agent 通过调用”工具”来行动——搜索工具、代码执行工具、数据库查询工具等等。工具是 Agent 和真实世界之间的接口。

记忆机制(Memory)

Agent 还需要”记性”。分两种:

  • 短期记忆:对话上下文,当前任务的状态
  • 长期记忆:跨会话存储的信息,比如你的偏好、历史决策

没有记忆的 Agent,每次对话都是失忆症患者,做不了复杂任务。


三、七种 Agent 类型详解:从”条件反射”到”蚁群智慧”

Microsoft 课程里把 Agent 分成了七种类型,从简单到复杂,我给你整理成表格,然后说说我自己的感受。

类型 核心特征 典型例子
简单反射型(Simple Reflex) 看到输入 → 直接触发规则,没有记忆 垃圾邮件过滤器、温控开关
基于模型的反射型(Model-Based) 维护一个内部世界状态,再做决策 自动驾驶的环境感知模块
基于目标的型(Goal-Based) 有明确目标,规划路径去实现 导航 APP 找最优路线
基于效用的型(Utility-Based) 有目标,还要权衡”哪个方案更划算” 投资组合自动优化
学习型(Learning Agent) 从经验中不断改进自己的策略 推荐算法、AlphaGo
分层型(Hierarchical) 大任务拆小任务,上层指挥下层 企业 ERP 系统、复杂工作流
多智能体系统(Multi-Agent) 多个 Agent 协作/竞争,涌现出集体智慧 自动化软件开发团队(一个写代码、一个测试、一个审查)

我的评论:

说实话,前几种看完感觉”哦就这”,但多智能体系统让我真的眼前一亮。

想象一下——你给一个 Agent 说”帮我做一个数据分析报告”,它自动拆成:数据收集 Agent、分析 Agent、可视化 Agent、写作 Agent,几个 AI 分工协作,最后交给你一份完整报告。

这不是未来,现在用 AutoGen 或者 CrewAI 就能搭这种系统了。

日常用得最多的可能是基于目标的型——它最贴近我们对 AI 助手的期待:说个目标,它自己想办法完成。其他类型更像是学术分类,帮你建立认知框架用的。


四、什么时候该用 Agent?什么时候别用?

这个问题我觉得比”Agent 是什么”更重要,因为很多人一上来就想把所有事都 Agent 化,结果搞得比直接写代码还复杂。

该用 Agent 的场景 不该用 Agent 的场景
任务步骤多且不固定 逻辑简单、流程固定
需要调用多种工具 一个 API 调用就搞定
中间需要判断和适应 不需要上下文和记忆
任务执行时间长、可中断恢复 速度要求极高(毫秒级响应)
类似”研究员/助理”的角色 类似”查询/计算”的简单动作

一句话原则: 如果你能用 if-else 三行写完,就别用 Agent——杀鸡别用牛刀。


五、构建 Agent 的三大基石

学完概念,真的想动手怎么办?课程里提到了三件事,我觉得顺序很重要:

① 开发基础(Development)

先搞懂怎么调用 LLM、怎么定义工具、怎么处理对话上下文。这是地基,不打好什么都悬。

② 设计模式(Design Patterns)

比如”工具调用模式”、”ReAct 循环”(Reasoning + Acting 交替进行)、”规划-执行模式”。这些是 Agent 的”招式”——知道有哪些招,才能用对地方。

③ 框架(Frameworks)

LangGraph、AutoGen、Semantic Kernel……这些框架把上面两件事都封装好了,让你少写样板代码,专注在业务逻辑上。

三者关系:开发是基础,设计模式是方法论,框架是工具箱。 不要只学框架不懂原理,那等框架更新了你就懵了。


六、LLM vs Agent:到底差在哪?

维度 普通 LLM AI Agent
能做什么 生成文本、回答问题 感知+决策+执行完整任务
工具调用 ❌ 不能主动调用 ✅ 可以调用搜索/代码/API等
记忆 仅限当前上下文窗口 可有短期+长期记忆
自主性 被动响应 主动规划和行动
适合任务 问答、写作、翻译 自动化流程、多步骤任务
复杂度 低(直接调用即可) 高(需要设计和调试)

用一个不太恰当但好理解的比喻:LLM 是图书馆,Agent 是会帮你借书、整理书单、预约座位的图书管理员。

图书馆的知识量更大,但图书管理员能帮你把事情真正做完。


七、知识点思维导图

`

AI Agent 核心概念

├── 定义

│   ├── 能感知环境

│   ├── 能做出决策

│   └── 能执行行动

├── 系统组成

│   ├── 环境(观察来源)

│   ├── LLM(决策大脑)

│   ├── 工具(行动接口)

│   └── 记忆

│       ├── 短期(上下文)

│       └── 长期(跨会话存储)

├── 七种类型

│   ├── 简单反射型

│   ├── 基于模型的反射型

│   ├── 基于目标的型  ← 日常最实用

│   ├── 基于效用的型

│   ├── 学习型

│   ├── 分层型

│   └── 多智能体系统  ← 最有想象空间

├── 适用判断

│   ├── 适合:多步骤、需工具、需判断

│   └── 不适合:简单逻辑、速度优先

└── 构建基石

├── 开发基础

├── 设计模式(ReAct等)

└── 框架(LangGraph/AutoGen/SK)

`


八、课后思考题(认真思考,别跳过)

Q1: 你现在工作或生活中,有哪个重复性任务是”多步骤+需要判断”的?如果把它交给一个 Agent,它需要哪些工具、什么记忆、做什么决策?
Q2: 多智能体系统里,多个 AI 协作会不会出问题?比如一个 Agent 做了错误决策,其他 Agent 会跟着错下去吗?你觉得该怎么设计”纠错机制”?
Q3: LLM 越来越强,以后会不会强到不需要单独设计 Agent,它自己就能完成所有任务?Agent 的价值是暂时的还是持续的?


AI 浪潮里的一个普通折腾者,边学边记,能帮到你一点就值了。

这是「AI Agents for Beginners」系列笔记第1课,下一课我们聊:主流 Agent 框架大对比(LangGraph vs AutoGen vs Semantic Kernel),期待的扣1。