AI 为什么越来越聪明?从 LLM 到 Agent,这条进化链你必须知道

你有没有想过——

为什么 ChatGPT 能写代码、查资料、帮你订机票？为什么 AI 助手越来越像一个"真正的人"？

背后，有一条清晰的技术进化链：LLM → Token → Context → Prompt → Tool → MCP → Agent → Agent Skill。读懂它，你才真正读懂了 AI 的未来。

🧠第一步：LLM是什么？

LLM（大语言模型），是一种基于海量文本训练出来的超大型模型。

底层架构叫做 Transformer——由 Google 在 2017 年的论文《Attention is All You Need》提出。有意思的是，Google 发明了这个架构，但率先把它工程化落地的，是 OpenAI。

2022 年 GPT-3.5 横空出世，让大众第一次感受到大模型的震撼。2023 年 GPT-4 发布，AI 讨论彻底引爆。此后 Claude、Gemini 百花齐放，进入群雄时代。

但 LLM 到底在做什么？说穿了很简单：

它在玩一个超级版"文字接龙"。

你输入一段文字 → 模型预测下一个最可能的词 → 再预测下一个 → 循环往复，直到回答完成。没有"理解"，只有"预测"。但预测得足够好，就像真的理解了一样。

🔤 第二步：Token——AI 眼中的"字"

LLM 处理文本的最小单位，不是字，不是词，而是 Token。

你可以把 Token 理解为"半个词"：

语言	Token 换算
英文	约 1 个词 = 1 Token
中文	约 1.5~2 个汉字 = 1 Token

"今天天气怎么样"这句话，在模型眼里大概只有 4 个 Token。

这意味着什么？模型的处理成本、速度、限制，全都以 Token 计算。 你说的每一句话，都在消耗 Token。

📦 第三步：Context——AI 的"短期记忆"

很多人以为 AI 有记忆，其实没有。

Context（上下文） 是 LLM 每次处理请求时接收的"完整信息包"，包含：

• 你本次输入的内容
• 所有历史对话记录
• 系统指令（System Prompt）
• 可用工具列表

每次对话，平台都把这一整包内容发给模型，让它"假装"记得之前说了什么。

而 Context Window（上下文窗口） 决定了这个"信息包"的上限：

模型	Context Window
GPT-4.5	约 128k Token
Claude 3.5 Pro	约 200k Token
Gemini 1.5 Pro	约 100 万 Token

100 万 Token ≈ 一整部长篇小说的文字量。

当文档超出上限怎么办？就要用到 RAG（检索增强生成）——先把文档向量化存储，提问时只塞入相关片段，大幅节省成本。

💬 第四步：Prompt——驱动 AI 的"咒语"

Prompt（提示词） 是你发给 LLM 的指令，是影响模型输出最直接的因素。

Prompt 分两种：

类型	说明
User Prompt	你在对话框输入的内容
System Prompt	后台预设的隐藏指令，用户不可见

举个例子：如果 System Prompt 设置了"你是一位数学老师，不能直接告诉答案，要引导学生思考"，那无论你问什么，模型都会遵守这个隐藏规则。

这也是为什么不同产品里的同一个 AI，表现差异那么大——背后的 System Prompt 不一样。

Prompt 越清晰、越具体，模型表现越好。 这就是所谓"Prompt 工程"的价值所在。

🔧 第五步：Tool——给 AI 装上"手"

LLM 本质上只能预测文字，它做不到：

• 查实时天气
• 调用外部 API
• 操作文件系统
• 自主执行代码

Tool（工具） 解决了这个问题。工具调用的流程是这样的：

用户提问  → 平台把问题 + 工具列表 → 发给模型  → 模型"建议"调用某个工具（返回工具名+参数）  → 平台实际去执行  → 把结果返回给模型  → 模型整合，生成最终回复

注意：模型本身不能执行工具，只能"点菜"，真正做菜的是平台。

角色分工清晰：模型负责决策，工具负责执行，平台负责中转。

🔌 第六步：MCP——工具的"Type-C 接口"

工具多了，问题来了：ChatGPT、Claude、Gemini 各有一套接入规范，开发者为同一个工具要写多套代码，维护成本极高。

MCP（Model Context Protocol，模型上下文协议） 就是来解决这个问题的。

一个类比就说清楚了：

MCP = AI 世界的 USB Type-C
统一标准，一次适配，所有支持 MCP 的平台都能用。

工具开发者只需按 MCP 规范写一次代码，就能在所有主流 AI 平台上运行。MCP 如今已是 AI 生态中工具集成的主流标准。

🤖 第七步：Agent——从"回答问题"到"自主完成任务"

普通对话：你问 → AI 答。一问一答，结束。

Agent（智能代理） 完全不同：

你给一个任务 → Agent 自主规划步骤 → 调用工具 → 逐步执行 → 完成任务

举个例子：你说"帮我找附近的本地特产店"

1. Agent 思考：需要先知道我在哪
2. 调用定位工具 → 获得坐标
3. Agent 思考：现在可以搜索了
4. 调用地图搜索工具 → 获得店铺列表
5. 整合结果，输出答案

全程你没有干预，Agent 自己规划、自己执行。这就是从 LLM 到 Agent 的质变。

主流 Agent 产品包括：Claude Code、Codex、Gemini CLI、OpenClaw 等。

📄 第八步：Agent Skill——给 Agent 一份"工作手册"

Agent 能力强，但每次执行复杂任务都要在 Prompt 里写完整的要求，既冗长又难维护。

Agent Skill 就是解决这个问题的设计——它是一份 Markdown 格式的"说明文档"，告诉 Agent：

• 能干什么
• 怎么干
• 输出什么格式
• 遇到边界情况怎么办

一个标准的 Skill 文件（SKILL.md）包含：名称、功能描述、执行步骤、判断规则、输出格式。

最妙的是它的懒加载机制：Agent 不会一次性读取所有 Skill，只有当任务触发时，才加载对应的 SKILL.md，大幅节省 Token。

Skill + MCP 工具配合，实现了"行为规范 + 工具能力"的统一封装。

🗺️ 全局概念地图

读到这里，你已经掌握了整条进化链。来一张概念关系图收尾：

LLM（大语言模型） ├── Token：处理文本的最小单元 ├── Context：每次的"短期记忆"信息包 │    ├── Context Window：信息包容量上限 │    └── RAG：超长文档的检索方案 ├── Prompt：驱动模型行为的指令 │    ├── User Prompt：用户输入 │    └── System Prompt：后台隐藏指令 ├── Tool：让 AI 能操作外部世界的函数 ├── MCP：工具的统一接入标准（Type-C 类比） └── Agent：自主规划+多步执行的系统      └── Agent Skill：描述行为的工作手册

概念	一句话记住它
Token	LLM 处理文本的最小单位，约等于半个词
Context	LLM 的临时"短期记忆"，每次都是全新的
Prompt	给 LLM 的指令，分用户级和系统级
Tool	让 LLM 能感知和影响外部世界的函数
MCP	工具的统一接入标准（AI 界的 Type-C）
Agent	能自主规划和执行多步任务的 LLM 系统
Agent Skill	描述 Agent 行为规范的 Markdown 工作手册

AI 不是魔法，它是工程。理解这条进化链，你就理解了 AI 为什么越来越强大——以及它还差什么。

你最想深入了解哪个环节？留言告诉我 👇