AI 名词概念扫盲

逐层递进地讲解 AI 领域最核心的名词——从最基础的 Prompt 和 Token，到中间的 RAG、Tool、MCP、Agent、Agentic Workflow 和 Feedback。

概念全景图

这些概念不是孤立的，它们构成了一条从"人指挥模型"到"模型自主行动"的进化链：

Prompt / Token                        基础层：人与模型交互的最小单元    │    ▼Context                                承载层：对话的"记忆空间"    │    ├──────────────────────────────────┐    ▼                                  ▼RAG                               Skill / Tool                    能力层：让模型突破自身限制(知识增强)                         (行动增强)    │                                  │    └────────────┬─────────────────────┘                 ▼              MCP                       连接层：标准化的"万能插头"                 │                 ▼              Agent                     执行层：自主规划与决策                 │                 ▼         Agentic Workflow               编排层：多 Agent 协同工作                 │                 ▼            Feedback                    进化层：从错误中学习，持续改进

一、Prompt（提示词）

是什么

Prompt 是你发给模型的指令——一条消息、一个问题、一段描述。它是人与模型交互的唯一入口。

由来与发展

起源（2020 年以前）：早期的语言模型只是做"完形填空"，prompt 就是那个需要被补全的句子前缀。GPT-2 时代，人们发现改变前缀的措辞会戏剧性地影响输出质量。

关键转折（2020 - GPT-3）：OpenAI 发布 GPT-3 论文，提出了 In-Context Learning（上下文学习），发现只要在 prompt 里放几个例子，模型就能学会新任务而无需微调。这就是 Few-Shot Prompting。

进化到推理（2022 - CoT）：Google 的论文 "Chain-of-Thought Prompting" 发现，在 prompt 里加上"让我们一步一步思考"，模型的数学推理能力就大幅提升。prompt 从"下指令"进化到了"教方法"。

结构化时代（2023 至今）：prompt 不再是随便写几句话，而是一门工程学科——Prompt Engineering。出现了 System Prompt（系统级约束）、结构化 Prompt 模板、Dynamic Prompt（根据上下文动态拼接）等。

解决了什么问题

让普通人用自然语言就能操控复杂的 AI 模型，无需编程。一个好的 prompt 可以让同一个模型的表现有天壤之别。

不足

脆弱性
：改一个词可能完全改变输出质量
不可迁移
：为 GPT-4 优化的 prompt 在 Claude 上效果可能不好
长度限制
：复杂任务的 prompt 可能长达数千字，挤占模型的"注意力"
安全隐患
：Prompt Injection（注入攻击）可以绕过模型的安全限制

二、Token（词元）

是什么

模型读取文本的最小单位。不是"字"，也不是"词"，而是介于二者之间的片段。

"我喜欢 AI"  →  ["我", "喜欢", "AI"]          ← 3 个 token"hello world" →  ["hello", " world"]           ← 2 个 token

由来与发展

本质原因——模型不理解文字：模型内部全是矩阵运算，不能直接处理文字。必须先把文字转成数字（Embedding），再输入模型。Tokenization 就是这个"转数字"的第一步。

分词算法演进：

Word-Level（词级）
: 每个词一个 token。词表太大（数百万），生僻词无法处理。
Character-Level（字符级）
: 每个字母一个 token。序列太长，效率低。
Subword-Level（子词级，当前主流）
: BPE（字节对编码）和 SentencePiece 算法。高频词保持完整，低频词拆成子词。平衡了词表大小和序列长度。

Token 经济学：从 GPT-3.5 开始，API 按 token 计费。上下文窗口用 token 衡量。Token 成了衡量模型"脑容量"和"使用成本"的核心指标。

中文：约 1.5 个汉字 = 1 token
英文：约 0.75 个词 = 1 token
代码：约 1 个字符 = 1 token（取决于语言）

解决了什么问题

让连续的文本变成了可被计算机计算的离散序列，打通了自然语言和数学运算之间的桥梁。

不足

浪费严重
：同一个意思，不同语言消耗的 token 数差异巨大（中文比英文省 token）
数字处理弱
："2024" 可能被拆成 "20" + "24"，模型很难理解数值大小关系
多语言偏见
：分词器对英语最友好，对其他语言可能产生奇怪的拆分
成本不透明
：用户看不到 token 拆分过程，不知道为什么"贵"

三、Context（上下文）

是什么

模型在处理当前消息时能"看到"的所有历史信息。包括系统提示词、对话历史、附加文档等。

由来与发展

没有上下文的时代（2022 以前）：每次对话都是独立的，模型不记得你上次说了什么。每次都要重新交代一遍背景。

上下文窗口的军备竞赛：

GPT-3 (2020)      →    2K tokens    ≈ 一篇短文GPT-3.5 (2022)    →    4K tokens    ≈ 一篇小论文GPT-4 (2023)      →    8K-32K       ≈ 一本书的章节Claude 2 (2023)   →   100K          ≈ 一本书Gemini 1.5 (2024) →   1M tokens     ≈ 《三体》第一部Claude 4 (2025)   →   200K          ≈ 长篇小说

关键洞察：上下文窗口不再是限制因素，但更大的窗口不等于更好的理解。"大海捞针"测试（在长文本中藏一句话，问模型相关内容）发现，窗口越大，模型越容易忽略中间的信息（Lost in the Middle 问题）。

上下文管理：随着 Agent 发展，出现了 Context Engineering——如何压缩、摘要、修剪对话历史，让模型始终有最相关的上下文，而不是简单地塞满窗口。

解决了什么问题

让模型拥有了"记忆"。一次对话中可以持续引用之前的讨论，不需要用户反复重复。

不足

Lost in the Middle
：模型对文本开头和结尾关注度高，中间部分容易被忽略
注意力稀释
：上下文越长，模型对每条信息的"注意力"越薄
成本递增
：每次请求都要处理全部上下文，长对话的 API 费用会越来越高
信息泄露风险
：多轮对话的上下文可能包含敏感信息，一旦泄露整个对话都暴露

四、RAG（检索增强生成）

是什么

让模型在回答问题前，先去外部知识库检索相关资料，基于检索到的资料来生成回答。相当于给模型"开卷考试"的能力。

传统 LLM：      问题 → 模型凭记忆回答（闭卷）RAG：          问题 → 检索相关文档 → 文档 + 问题 → 模型参考文档回答（开卷）

由来与发展

为什么产生（2020 - Facebook AI）：LLM 有三个致命缺陷——知识截止于训练日期、会编造事实（幻觉）、无法引用来源。Facebook AI Research 在 2020 年提出 RAG 论文，首次将检索和生成整合成一个端到端系统。

发展历程：

朴素 RAG（2020-2022）
：问题来了搜一段文本，拼接给模型。简单但容易搜到不相关的内容。
高级 RAG（2023）
：加入重排序（Re-ranking）、查询重写（Query Rewriting）、混合检索（关键词 + 语义）。检索质量大幅提升。
Graph RAG（2024）
：不只是搜文本块，而是构建知识图谱，让模型理解实体之间的关系。
Agentic RAG（2025）
：Agent 自己决定搜哪些资料、搜几轮、怎么整合。多步检索 + 交叉验证。

解决了什么问题

消除幻觉
：回答有据可查，每句话都能标注出处
实时更新
：知识库更新，模型回答自动更新，无需重新训练
领域定制
：上传公司文档，模型变成领域专家
可解释性
：用户可以查看引用的来源，判断可信度

不足

检索质量决定回答质量
：垃圾进垃圾出。知识库的切分方式、检索算法直接影响结果。
多跳推理困难
："A 公司的 CEO 的妻子的生日是哪天"——需要先搜 CEO，再搜妻子，再搜生日。传统 RAG 很难处理好这种链式查询。
上下文碎片化
：检索到的多个文档片段可能相互矛盾，模型需要判断采信哪个。
延迟增加
：多了检索步骤，响应速度比纯模型推理慢。
与实际场景的差距
：生产环境中的文档格式复杂（PDF 扫描件、表格、图表），解析和检索都有挑战。

五、Tool（工具）

是什么

模型可以向外部系统发起调用——搜索网页、执行代码、查询数据库、发送邮件。模型不再只是"说话"，而是能"做事"。

由来与发展

困境（2022）：LLM 很聪明，但被困在对话框里——它知道计算器可以算 123 × 456，但它自己算不对；它知道有天气网站，但它看不到实时天气。

Function Calling 诞生（2023 - OpenAI / Anthropic）：

OpenAI 在 GPT-3.5 Turbo 中率先推出 Function Calling
Anthropic 在 Claude 中推出 Tool Use
核心机制相同：模型不直接执行工具，而是输出"请帮我调用 XX 工具，参数是 YY"，由外部代码执行后把结果传回来

演进：

单工具调用（2023 上半年）
：一次只调用一个工具
并行调用（2023 下半年）
：同时调用多个独立工具（搜天气 + 搜新闻）
多步调用（2024）
：先搜 A，结果不理想，换个关键词再搜 B
工具组合（2025）
：搜网页 → 提取内容 → 写代码分析 → 发邮件通知

解决了什么问题

打破了模型的"对话框牢笼"。让模型获得了与现实世界交互的能力——获取实时信息、执行操作、控制设备。

不足

工具定义不标准
：OpenAI 和 Anthropic 的工具定义格式不一，代码不能通用
工具生态碎片化
：每个开发者都要自己实现一遍"搜索"、"读网页"、"发邮件"
模型选择工具的准确性
：工具多了以后（如 50+），模型可能选错工具
安全边界模糊
：模型调用工具能做"任何事"——删文件、发邮件、转账——谁来把关？

六、MCP（Model Context Protocol）

是什么

Anthropic 在 2024 年底发布的开放标准协议，定义了模型与外部工具、数据源之间的统一通信方式。可以理解为 AI 界的"USB-C 接口"——一个标准，连接万物。

由来与发展

问题驱动：在 MCP 之前，每个 LLM 提供商都有自己的插件/工具接口（OpenAI 的 Function Calling、Anthropic 的 Tool Use、Google 的 Extension）。开发者想同时对接多个模型，或者想让一个工具被多个模型使用，需要写 N×M 份适配代码。

MCP 的架构：

┌─────────┐          ┌─────────────┐          ┌──────────┐│  LLM    │ ←──────→ │ MCP Server  │ ←──────→ │ 外部资源  ││ (Client)│   MCP协议  │ (标准化服务) │          │ 数据库    ││         │          │             │          │ API      ││         │          │ 工具/资源/提示 │          │ 文件系统  │└─────────┘          └─────────────┘          └──────────┘

MCP Server 包装了外部资源，通过统一协议暴露三个核心能力：

Tools（工具）
：模型可以调用的操作（搜文件、查数据库）
Resources（资源）
：模型可以读取的数据（文档、API 响应）
Prompts（提示模板）
：预定义的提示词模板

发展状态：目前由 Anthropic 主导，社区快速跟进。已经有上百个开源 MCP Server（Google Drive、GitHub、Slack、PostgreSQL 等）。

解决了什么问题

标准化
：一套接口连接所有模型和所有工具，N+M 问题变为 1×1
工具复用
：别人写的 MCP Server 可以直接拿来用
解耦
：模型升级不影响工具，工具升级不影响模型
安全边界
：MCP Server 运行在独立进程中，权限隔离

不足

生态年轻
：标准推出不到一年，覆盖的工具还不够多
Anthropic 主导
：虽有开放协议，但 OpenAI 和 Google 是否会采纳存疑
本地运行为主
：远程 MCP Server 的鉴权、安全、性能还在演进中
调试困难
：当 Agent 调用 MCP 工具出错时，很难定位是模型、协议、还是 Server 的问题
协议版本兼容
：MCP 本身在快速迭代，已有断代兼容问题

七、Skill（技能）

是什么

给模型预置的一组结构化的"能力包"——包含特定的提示词模板、工具组合、执行流程。把一名通才 LLM 变成某个领域的专家。

由来与发展

概念起源：实际来自实践中的痛点——同一个模型，有些人用得很好，有些人用得很差。差别不在模型，而在于是否有一套可复用的方法论。

从手工到自动化：

Prompt 模板（2023）
：把好用的 prompt 保存下来分享，"帮我写周报"、"帮我润色英文"
GPTs（2023 底 - OpenAI）
：ChatGPT 商店，用户可以封装自定义 GPT，组合指令 + 知识 + 工具
Project Instructions（2024 - Anthropic/Claude）
：项目级别的系统提示词和知识库
Skill 概念（2025）
：更结构化的能力包——不只是一段 prompt，而是包含触发条件、工具链、执行逻辑、输出格式的完整模块

解决了什么问题

可复用性
：一套好的方法论可以分享和复制
降低门槛
：普通用户不需要学 prompt engineering，直接用别人做好的 Skill
一致性
：同一类任务每次用相同的 Skill，输出质量和格式保持一致
组合性
：多个 Skill 可以组合成更复杂的工作流

不足

环境依赖
：一个 Skill 包含的工具在你的环境里可能不存在
版本管理
：模型升级后，Skill 的效果可能变化，需要维护
上下文占用
：复杂的 Skill 定义本身要占几百到几千 token
"知其然不知其所以然"
：用户依赖 Skill，但不理解背后的原理，遇到边界情况不会处理

八、Agent（智能体）

是什么

一个能够自主感知环境、制定计划、使用工具、执行行动、并从反馈中学习的 AI 系统。核心特征：不是被动回答问题，而是主动完成任务。

由来与发展

哲学根源：Agent 的概念在 AI 领域有 40+ 年历史（可追溯到 1980 年代的 BDI 模型——Belief-Desire-Intention）。但真正的转折点是 2023 年 LLM 的爆发——LLM 提供了"思考能力"，让 Agent 从理论走向实践。

关键里程碑：

ReAct 范式（2022 - Google/Princeton）
：Reasoning + Acting——模型交替进行思考和行动。看一步、想一步、做一步。这是现代 Agent 的架构原型。
AutoGPT / BabyAGI（2023 春）
：开源社区爆发了大量"自主 Agent"实验——给模型一个目标，它自己拆解任务、搜索信息、写代码。虽然经常跑偏，但点燃了想象。
Claude Computer Use（2024 - Anthropic）
：模型可以操作电脑——看屏幕、移动鼠标、点击按钮。
工程化 Agent（2025）
：从玩具走向生产。出现了专业的 Agent 框架（LangGraph、CrewAI、AutoGen）。关键在于可靠性——不是"有时候能行"，而是"每次都能行"。

Agent 的四大核心能力：

┌────────────────────────────────────────┐│               Agent                    ││                                        ││  🧠 推理 (Reason)    规划、分解、决策     ││  🛠️ 工具 (Tool)      搜索、代码、API     ││  💾 记忆 (Memory)    短期/长期记忆       ││  👁️ 感知 (Perceive)  读取环境反馈        │└────────────────────────────────────────┘

解决了什么问题

自动化复杂任务
：不再是"对话"，而是"搞定一件事"——帮你订机票、写报告、部署代码
减少交互轮次
：传统 LLM 需要用户一步步引导；Agent 接受目标后自己分解和执行
串联多个能力
：搜索 + 分析 + 写代码 + 发邮件，Agent 自己编排顺序

不足

可靠性的最后一公里
：Agent 在 90% 的情况下表现很好，但剩下 10% 的失败可能造成严重后果（发错邮件、删错文件、下错订单）
Token 消耗黑洞
：Agent 的多轮思考和工具调用会指数级放大 token 消耗，一次任务几百万 token 很常见
目标理解偏差
：给 Agent 的目标可能被误解，然后它沿着错误方向全力以赴
循环陷阱
：Agent 可能在执行某个步骤时遇到问题 → 换方法 → 再次遇到 → 无限循环
可观测性差
：Agent 的内部决策过程像黑箱，出错了很难排查是哪一步的问题

九、Agentic Workflow（智能体工作流）

是什么

不是单个 Agent 单打独斗，而是多个 Agent 协同工作——像一支团队，每个 Agent 有专门的职责，按照预定义的流程协作完成复杂任务。

由来与发展

为什么需要——复杂度天花板：单个 Agent 的能力有限。一个 Agent 既要做研究、又要写代码、又要做 QA，就像让一个人同时当好科学家、工程师和测试员——能行，但做不好。

从单打独斗到团队协作：

单 Agent（2024 初）：  用户 → Agent → 搜 + 查 + 写 + 验证 → 输出  问题：负载过重，容易出错多 Agent / Workflow（2024 中至今）：  用户 → 协调器           ↓    ┌──────┼──────┐    ▼      ▼      ▼  研究   代码    QA  Agent  Agent  Agent    │      │      │    └──────┼──────┘           ▼        审核 Agent → 输出

关键框架：

LangGraph
：状态机驱动的 Agent 编排
CrewAI
：基于角色的多 Agent 协作
AutoGen（Microsoft）
：对话式多 Agent 框架
AWS Multi-Agent Orchestrator
：云原生 Agent 编排

核心模式：

Sequential
：A → B → C，流水线式
Parallel
：A、B、C 同时执行不同任务，结果聚合
Router
：根据任务类型分发给不同 Agent
Evaluator-Optimizer
：一个写，一个评，循环改进
Human-in-the-Loop
：关键时刻（花大钱、删文件）先让人审核

解决了什么问题

分而治之
：复杂任务拆成子任务，由专业 Agent 处理
质量保障
：有专门的评测 Agent，比单 Agent 自己检查自己更客观
并行加速
：独立的任务同时执行，总耗时降低
可维护性
：每个 Agent 职责单一，修改一个不影响其他

不足

编排复杂度
：设计一个好的工作流本身就是一个工程挑战，需要理解任务的内在结构
通信损耗
：Agent 之间的信息传递可能丢失细节，错误会在链条中放大
成本倍增
：多 Agent = 多倍 token 消耗。简单任务用多 Agent 是大炮打蚊子。
过度设计
：很多场景并不需要多 Agent，一个简单的 if-else 就够了。工作流框架被过度使用。
调试噩梦
：当 5 个 Agent 协作出错时，要顺着链条一步步排查，找"谁该负责"

十、Feedback（反馈）

是什么

用户或系统对模型输出的评价信息——"这个回答好不好？哪里不好？应该怎么改？"。是模型从"能用"到"好用"的关键。

由来与发展

基础形式——RLHF（2022）：OpenAI 在 InstructGPT 论文中提出——让人来给模型的多个回答排序，用排序数据训练一个"奖励模型"，再让模型学习最大化奖励。ChatGPT 的"会聊天"就得益于此。

从显式到隐式：

显式反馈（2022-2023）
："赞/踩"按钮、评分、人工标注。信号强但数据量少。
隐式反馈（2023 至今）
：用户是否复制了回答、是否追问、停留时长。噪声大但数据量巨大。
过程反馈（2024 至今）
：不只是对最终结果的评价，而是对思考过程、工具选择、搜索关键词等中间步骤的评价。像教练不只告诉你"跳得不够高"，而是说"起跳时膝盖的角度需要调整"。

闭环反馈系统：

用户提问 → Agent 回答              │              ▼        反馈收集（赞/踩/评分/查看率）              │              ▼        分析引擎（为什么好/不好？）              │              ▼        改进措施（调整 prompt / 切换工具 / 更新知识库）              │              ▼        下次同样的任务 → 更好的回答

下一代——Constitutional AI / Self-Improvement：模型不只是被动接收反馈，而是自己用一套"宪法规则"（Constitution）来评估和改进自己的输出。RLHF 让模型听话，Constitutional AI 让模型有原则。

解决了什么问题

让模型越来越准
：反馈是模型迭代的唯一驱动力
发现盲区
：用户反馈能暴露模型训练的盲区和过时知识
个性化
：同一个问题，不同用户期待不同的答案。反馈让模型适应个体偏好
安全护栏
：负面反馈（有害、偏见、违规）是安全改进的关键信号

不足

冷启动问题
：新系统没有反馈数据，需要人工打样
反馈偏见
：少数活跃用户的反馈不能代表全体用户
反馈质量参差
：用户说"这个答案不好"，但不说"为什么不好"和"怎么算好"
反馈滞后
：用户反馈 → 分析 → 改进模型，周期可能长达数周
评估困境
：如何评价"反馈是否让模型变好了"？需要标准化的评测基准，但这本身很难设计
过度优化风险
：模型学会迎合用户短期的偏好（说得用户爱听的），但失去了长期的帮助性（说用户需要听的）

从基础到前沿：完整进化路径

2020 ─── Prompt Engineering 诞生（GPT-3 In-Context Learning）  │2021 ─── Token 优化（BPE/SentencePiece 成熟）  │2022 ─── Chain-of-Thought / ReAct（推理+行动）  │      RAG 论文（Facebook AI）  │      RLHF 落地（ChatGPT）  │2023 ─── Function Calling / Tool Use（工具调用）  │      Agent 爆发（AutoGPT）  │      上下文窗口军备竞赛（100K+ tokens）  │2024 ─── MCP 协议发布（Anthropic）  │      Agentic Workflow 框架成熟  │      Skill / GPTs 生态  │      Computer Use（操作电脑）  │2025 ─── Agent 从玩具走向生产  │      多 Agent 协作成为标配  │      反馈闭环驱动持续学习  │      Context Engineering 系统化

一张图总结

         ┌──────────────┐                     │   Prompt     │  人机交互的唯一入口                     │   Token      │  信息传递的最小单位                     └──────┬───────┘                            │                     ┌──────▼───────┐                     │   Context    │  对话的"记忆空间"                     └──────┬───────┘                            │            ┌───────────────┼───────────────┐            ▼                               ▼    ┌──────────────┐                ┌──────────────┐    │     RAG      │                │  Tool / Skill │    │ 让模型"查资料"│                │ 让模型"做事"  │    └──────┬───────┘                └──────┬───────┘            │                               │            └───────────────┬───────────────┘                            │                     ┌──────▼───────┐                     │     MCP      │  标准化的"万能插头"                     └──────┬───────┘                            │                     ┌──────▼───────┐                     │    Agent     │  自主规划、执行、反思                     └──────┬───────┘                            │                     ┌──────▼───────┐                     │   Agentic    │  多 Agent 协同工作流                     │   Workflow   │                     └──────┬───────┘                            │                     ┌──────▼───────┐                     │   Feedback   │  从结果中学习，持续进化                     └──────────────┘

最后更新: 2026-05-24
这些概念仍在快速演进，本文档会持续更新。如有错误或补充，欢迎指正。