字数 4097,阅读大约需 19 分钟

从"提示框连接ChatGPT"到实现所有这些功能,这一飞跃并非因为模型变得更智能。这是因为架构发生了改变。
现代AI技术栈的每一层之所以存在,是因为前一层在某些重要方面失败了。理解每次演进发生的原因,是理解当今任何严肃AI产品运作方式的最快途径。
这就是那个故事。
我将在这篇文章中以可视化且深入的方式解释AI的每个阶段,从LLM到MCP。
在本文中,您将对完整的AI演进历程有一个很好的了解。

第一阶段:LLM时代

从零开始理解LLM
LLM是一个预测引擎。
不是推理引擎,不是数据库,不是搜索系统。
给定文本,它预测接下来应该出现什么。这种预测会反复进行,逐token地生成,直到响应完成。
模型通过从海量人类生成的文本中学习统计模式来做到这一点:书籍、文章、代码、研究论文、网站。
输入: "法国的首都是"模型: [预测下一个token]输出: "巴黎"虽然概念很简单,但是规模使其变得卓越。
一个token大约是3-4个英文字符。"Hello, world!"大约是4个token。模型处理和生成的所有内容都以token计量。 这对成本、速度以及我们接下来将讨论的限制都很重要。
为什么LLM感觉具有革命性
第一次,机器可以:
• 用任何语言进行流利对话 • 编写实际可运行的代码 • 在几秒钟内总结一份50页的文档 • 用简单的术语解释复杂的主题 • 回答几乎任何领域的问题
LLM遇到的瓶颈
然后人们开始构建真正的产品,局限性变得无法忽视。
纯LLM的核心问题:
• 幻觉: 模型自信地生成错误信息,因为它预测的是看起来合理的答案,而不是真实答案 • 知识截止日期: 训练数据有一个日期。问关于上周的事情,它只能猜测 • 无记忆: 每次对话都从空白开始。昨天聊的内容可能根本没有发生过 • 无法访问您的数据: 您的公司文档、数据库、内部系统——模型对这些一无所知 • 无法执行操作: 它只能生成文本。无法发送邮件、运行查询或更新记录
问一个纯LLM,"苹果公司昨天的股价是多少?"它要么拒绝回答,要么编造一个数字。
它与实时系统没有连接。它是一个非常智能的自动补全引擎,但仅靠自动补全无法运营一家企业。
这种局限性催生了下一轮演进。
第二阶段:RAG改变游戏规则

核心概念
RAG代表检索增强生成(Retrieval-Augmented Generation)。这个概念简单到可以一句话概括:
在生成响应之前,检索相关信息并将其提供给模型。
系统不再仅仅依赖训练数据,而是在每次查询时即时获取新鲜且相关的信息作为上下文。
学生类比
可以这样理解:
纯LLM:一个仅凭记忆回答考试的学生。有时表现出色,有时自信地答错。RAG:一个被允许在答题前翻开笔记的学生。答案基于实际资料。模型没有变得更智能。它获得了更好的信息来处理。
RAG的工作原理(可视化)
用户查询 ↓检索相关文档(通过向量数据库,使用语义搜索) ↓将这些文档作为上下文注入到提示中 ↓LLM基于检索到的内容生成答案 ↓返回带有引用和准确信息的响应使检索成为可能的技术
• Embedding(嵌入) 是使语义搜索成为可能的机制。 • 文档被转换为向量—— 代表语义的数字列表。相似的含义在向量空间中彼此接近。"Car"和"automobile"有相似的向量。"Car"和"photosynthesis"则没有。
当用户查询到来时,它也会被转换为向量。系统找到与查询向量最接近的存储向量。这些就是语义最相关的文档,被检索并注入到模型的上下文中。
向量数据库大规模存储这些嵌入:
• Pinecone — 托管式、生产级可用 • Weaviate — 开源、丰富的查询支持 • Chroma — 非常适合开发和小型应用 • FAISS — 快速、本地运行、无需托管基础设施
RAG解锁了什么
RAG成为严肃AI产品的基础:
• 企业知识助手 • 基于实际政策的企业客户支持聊天机器人 • PDF和文档问答系统 • 真正能找到正确内容的企业内部搜索 • 任何需要最新或私密信息的系统
RAG无法做什么
检索解决了知识问题,但没有解决行动问题。
RAG可以找到"我们的退款政策是什么?"的答案,但它无法处理退款。它可以告诉您航班选项,但无法预订机票。它擅长回答问题,但无法执行任务。
为此,需要一种根本不同的能力。
第三阶段:AI智能体的崛起

从回答到行动的转变
智能体引入的核心转变简单但深刻:
传统AI:用户提问 → 模型回答 → 完成智能体:用户设定目标 → 智能体规划 → 智能体使用工具 →智能体观察结果 → 智能体决定下一步 →智能体继续直到目标完成智能体可以推理、规划、执行操作、使用工具并执行多步骤工作流程。它们是运作而非仅仅响应。
工具调用:智能体能力的基础
LLM本身无法搜索Google、调用API、写入数据库或运行代码。工具调用将模型的触角扩展到现实世界。
用户:"找出下个月从德里到新加坡最便宜的航班。"智能体步骤1:使用参数调用航班搜索API智能体步骤2:接收结果智能体步骤3:排序和比较选项智能体步骤4:为用户总结三个最便宜的选项模型决定调用哪个工具、使用什么参数,以及如何处理结果。它协调整个工作流程。
智能体可以做什么
一个能力强的AI智能体可以:
• 浏览网站并提取信息 • 编写、执行和调试代码 • 发送电子邮件和消息 • 查询和更新数据库 • 分析文件和文档 • 使用适当的凭证调用任何API • 与其他智能体协调 • 安排和管理工作流程
使智能体变得实用的框架
从头构建智能体很难。框架处理了样板代码:
• LangChain / LangGraph — 使用最广泛的、基于图的智能体编排 • AutoGen — 多智能体对话,适合协作任务 • CrewAI — 基于角色的智能体团队,用于结构化工作流程 • OpenAI Agents SDK — 原生工具调用与内置编排
智能体仍然会出问题的地方
更强的能力引入了更多的失败模式:
• 上下文溢出: 长时间运行的智能体会填满上下文窗口。早期的指令被"遗忘",准确性下降。 • 记忆碎片化: 没有连贯的记忆系统,智能体会失去正在执行任务的线索 • 工具混淆: 工具太多,模型会选错工具或使用不当 • 幻觉行为: 模型虚构从未实际执行过的工具调用的结果 • 失控循环: 没有停止条件意味着智能体在应该要求澄清时继续运行
更深层的问题是:每个智能体集成都是定制的。将智能体连接到Slack需要一个定制集成。Google Drive需要另一个。Salesforce又需要一个。没有标准。扩展意味着不断增长的定制连接器堆栈。
这就是MCP出现的原因。
第四阶段:MCP——标准化一切的协议

MCP之前的难题
在2024年11月之前,将AI系统连接到外部工具意味着:
• 每个工具都需要定制集成 • 每个API都有不同的格式 • 没有标准规定模型如何发现可用的工具 • 系统之间没有传递上下文或结果的一致方式
每个新的数据源都需要自己的定制实现,这使得真正互联的系统难以扩展。
这不是AI的局限性。这是基础设施的局限性。
MCP是什么
模型上下文协议(Model Context Protocol)是一个新的标准,用于将AI助手连接到数据所在的各种系统,包括内容存储库、业务工具和开发环境。
MCP由Anthropic于2024年11月发布,并立即开源,定义了一个通用接口用于:
• 读取文件和数据源 • 执行函数和工具 • 处理上下文和提示 • 协调AI系统与外部环境之间的工作
MCP正在为AI模型做USB-C标准线缆为设备所做的事情。就像USB-C使连接任何设备到任何外设变得更加容易一样,MCP使连接任何AI模型到任何数据源或工具变得更加容易。
MCP的架构工作原理

MCP服务器暴露工具(模型可以调用的操作)、资源(模型可以读取的数据)和提示(交互模板)。模型查询服务器以发现可用的工具,然后以结构化、经过验证的格式调用它们。
采用的规模
MCP不是一个缓慢的学术标准,花了数年才被采用。
自推出以来,该协议已被包括OpenAI、Microsoft、Google和Cloudflare在内的主要模型提供商采用。MCP目前每周下载量超过2000万次,用于Python和JavaScript SDK。
2025年,仅GitHub上就发布了超过13,000个MCP服务器。
2025年12月,Anthropic将MCP捐赠给Linux基金会旗下的Agentic AI Foundation(AAIF),该基金会由Anthropic、Block和OpenAI联合创立,并获得Google、Microsoft、AWS和Cloudflare的支持。
MCP不再是Anthropic的项目。它与Kubernetes和PyTorch一起并列在Linux基金会的项目组合中。
MCP诚实的局限性
MCP并不完美。安全是一个真正的问题。
安全研究人员发现了MCP的多个突出问题,包括提示注入、允许数据泄露的工具权限,以及可以静默替换受信任工具的伪装工具。
该协议关注的是简单性和易于集成,而不是身份验证和加密。该规范不强制执行审计、沙箱或验证。
MCP解决了连接问题。部署它的组织负责在其之上构建安全层。
上下文工程:连接一切的层

上下文工程是使上述所有内容可靠运作的学科。
提示工程是写好一条指令。
上下文工程是设计模型运作的整个信息环境:
• 记忆 — 模型从之前的交互中记住的内容 • 检索 — 为每次查询获取的文档或数据 • 工具 — 可用的操作及其描述方式 • 历史 — 会话中有多少内容被包含 • 系统状态 — 模型对其当前任务的了解 • 工作流位置 — 模型在多步骤流程中当前所处的位置
当今最强大的AI系统不仅仅是更好的模型。它们是围绕模型设计的更好的系统。
正确处理上下文是将生产环境中工作的智能体与演示环境中工作的智能体区分开来的关键。
现代AI技术栈的样子
2026年一个严肃的AI产品不仅仅是一个API调用。它是一个系统:

现代AI产品架构用户界面 ↓编排层 (LangGraph, AutoGen, 自定义) ↓上下文管理器├── 记忆层(会话历史、用户偏好)├── 检索层(向量数据库、语义搜索)└── 状态管理器(任务进度、工具输出) ↓工具层(通过MCP或自定义集成)├── 网络搜索├── 数据库查询├── API调用├── 代码执行└── 文件操作 ↓LLM (GPT-4o, Claude, Gemini, 开源模型) ↓响应 + 操作每一层解决一个特定的局限性。移除任何一层,你就会重新引入该层所解决的问题。
决策框架:您实际上需要哪一层?

不要过度工程化。 简单的RAG管道在大多数文档问答用例中比复杂的智能体表现更好。只有在更简单的系统无法满足需求时才添加复杂性。
接下来会发生什么
下一代AI系统将专注于:
• 长期持久记忆: 智能体跨月记住您的偏好,而不仅仅是会话 • 多智能体协作: 专门智能体网络协调实现共同目标 • 现实世界执行: 与操作系统和软件更深入的集成 • 个性化AI系统: 模型随着时间的推移适应您的特定领域、风格和上下文 • 自主工作流: 智能体管理自己的任务队列,无需逐步人工编排
瓶颈已经转移。 在2020年,瓶颈是模型智能。在2026年,瓶颈是系统设计:如何在复杂的工作流中良好地管理记忆、检索、工具协调和上下文。
构建最佳AI产品的公司不仅仅是使用最好的模型。他们是在模型周围构建最好的系统。
真正的要点
关于AI最大的误解是认为模型就是整个产品。而实际情况不是的。
现代AI系统是架构:围绕模型构建的记忆系统、检索管道、编排层、工具生态系统、上下文管理器和执行环境。
AI的未来不会仅仅由更好的模型赢得,而是将由围绕它们构建的更好的系统赢得。
夜雨聆风