从聊天到干活:AI到底是怎么一步步变聪明的?

AI为什么变的这么聪明？用一次杭州旅行举例，讲清楚它的家族LLM、RAG、MCP和Agent

这两年，AI领域的新词越来越多。

LLM、Token、Prompt、RAG、MCP、Agent、Skill、Harness……

光是把这些词念一遍，很多人就已经开始头大了。

它们到底是什么意思？为什么突然冒出来这么多新概念？它们之间又有什么关系？

其实，这些词并不是凭空出现的“黑话”。

每一个AI概念的背后，都是因为上一步遇到了一个具体问题，然后人们为了解决这个问题，才发明出了新的方法。

今天，我们不用复杂公式，也不讲晦涩技术。

就用一个很简单的例子：

假设你这周末想去杭州玩。

从你打开AI对话框，说出第一句话开始，我们一步步看看，AI是怎么从“只会聊天”，慢慢变成“真的能帮你干活”的。

一、LLM：AI回答你的大脑

你打开AI，对它说：

这周末我想去杭州玩，帮我推荐一下。

AI很快给你生成了一段回答。

这背后最核心的东西，就是我们常说的：

LLM，大语言模型。

你可以把它理解成AI的大脑。

不过，它不是像人一样真正“理解”一句话，而是会先把你的文字拆成一个个小单位。

这些小单位叫做：

Token。

Token不完全等于一个字，也不完全等于一个词。

你可以简单理解为：

Token就是大模型阅读文字时，最小的理解单位。

每一个Token都会被转成一个数字，这个数字叫做Token ID。

然后，大模型通过大量计算，预测：

这个Token后面，最可能接哪个Token？

就这样，一个接一个地预测下去，最后拼成一段完整回答。

所以，大模型生成内容的过程，本质上就是：

根据前面的内容，预测后面最可能出现的内容。

二、Prompt：你问AI的方式，决定AI回答的质量

刚才你只是随口问了一句：

这周末我想去杭州玩，帮我推荐一下。

AI可能会给你一个很普通的回答，比如：

西湖、灵隐寺、河坊街、西溪湿地……

这些内容没有错，但也不够好用。

为什么？

因为你给的信息太少了。

如果你换一种问法：

我这周末想去杭州玩，预算2000元，不想去太网红的景点，希望行程轻松一点。请你帮我按两天一夜规划，包括交通、住宿区域、美食和每日路线。

你会发现，AI的回答立刻变得具体很多。

这就是：

Prompt，提示词。

简单说，Prompt就是你给AI下达的指令。

你说得越清楚，AI越知道该往哪个方向回答。

而研究“怎么把话说清楚，让AI给出更好答案”的方法，就叫：

Prompt Engineering，提示词工程。

它听起来很专业，但本质很简单：

不是让你背技术，而是让你学会把需求讲明白。

比如你问AI做旅行攻略，可以补充这几个信息：

你去哪里？几个人去？预算多少？玩几天？喜欢热闹还是安静？有没有不想去的地方？希望AI用什么格式输出？

当这些信息越完整，AI的回答就越接近你真正想要的结果。

三、Context：AI为什么能记住前面说过的话？

接下来，你继续和AI聊天。

你补充说：

我不想去人太多的景点。

AI会马上调整推荐方向。

你又说：

我更喜欢咖啡馆、小众街区和本地美食。

AI也会继续调整。

你可能会觉得：

AI好像记住了我前面说过的话。

这背后靠的就是：

Context，上下文。

简单说，每次你发新消息的时候，系统并不是只把你最新这一句话发给大模型。

它通常会把你前面说过的内容，也一起打包发过去。

所以AI才知道：

你想去杭州；预算是2000元；你不想去网红景点；你喜欢小众街区和本地美食。

这些前后信息加在一起，就是上下文。

但是，上下文不是无限长的。

当你和AI聊得越来越多，对话越来越长，大模型能处理的内容就会到达上限。

这时候，它可能会忘记最开始的一些信息。

四、Memory：让AI记住真正重要的信息

既然上下文有限，那怎么办？

一个常见做法是：

让AI把前面的对话做一次压缩总结，只保留关键信息。

比如原来的对话很长，系统可以压缩成：

用户计划周末去杭州，两天一夜，预算2000元，不喜欢网红景点，偏好小众街区、咖啡馆、本地美食，希望行程轻松。

这段被压缩后的关键信息，就可以理解为：

Memory，记忆。

Memory不是把所有聊天记录一字不漏地保存下来。

它更像是帮AI做了一份“重点笔记”。

这样，AI在后续回答时，就能记住真正重要的偏好，而不是被大量无关信息占满。

五、RAG：让AI读取你的资料，而不是瞎猜

这时候，你又提出一个新要求：

你看看我之前收藏的杭州旅行攻略，再帮我规划行程。

问题来了。

AI并不知道你收藏了哪些攻略。

如果它没有权限读取你的资料，它只能根据自己已有的知识来回答。

这时候，就需要一个重要技术：

RAG，检索增强生成。

名字听起来有点难，其实很好理解。

RAG的作用就是：

让AI在回答之前，先去你的资料库里找相关内容，再根据找到的资料生成答案。

比如你收藏了很多杭州攻略、酒店推荐、美食清单。

系统会先把这些资料切成很多小片段，存进一个知识库。

当你问：

帮我根据收藏的攻略规划杭州两日游。

系统就会先去知识库里检索出最相关的内容。

然后，把这些内容和你的问题一起发给大模型。

这样，AI生成的回答就不再只是“凭感觉”，而是有了你的真实资料作为参考。

我们现在常见的AI客服、企业知识库问答、智能文档助手，很多背后都在用RAG。

它解决的问题是：

让AI答得更准确、更贴近资料、更少胡说。

六、Function Calling：让AI开始调用工具

到这里，AI已经可以聊天，也可以根据资料回答。

但它还是有一个问题：

它只能告诉你怎么做，不能真的替你做。

比如你问：

帮我查一下这周末去杭州的高铁票。

普通AI可能会回答：

你可以打开12306，输入出发地和目的地查询车次。

这个回答有用，但它并没有真的帮你查票。

如果我们希望AI真的去查询车次，就需要让它具备调用外部工具的能力。

这就是：

Function Calling，函数调用。

你可以这样理解：

程序先告诉AI：

“你现在可以使用这些工具，比如查高铁、查天气、查酒店。”

当AI判断自己需要用某个工具时，它会按照规定格式输出一条调用指令。

程序拿到这条指令后，真的去查询车次。

查完之后，再把结果返回给AI。

最后，AI再用人能看懂的方式告诉你：

周五晚上有这几趟车比较合适，价格是多少，时间是多少，哪一趟最适合你的行程。

Function Calling解决的问题是：

让AI不只是回答问题，而是能调用工具拿到实时结果。

七、MCP：让AI接工具变得更方便

但是，这里又出现了新的工程问题。

如果每接入一个工具，都要单独写一套适配代码，那会非常麻烦。

查高铁要写一套。查天气要写一套。查酒店要写一套。查日历还要写一套。

不同工具之间标准不一样，维护成本很高。

于是，MCP出现了。

MCP可以简单理解为：给AI和外部工具之间建立一套统一接口。

以前，AI想调用不同工具，需要分别对接。

有了MCP之后，AI程序只需要对接MCP这个统一标准。

只要外部工具也遵循这套标准，AI就能更方便地调用它们。

很多人会把Function Calling和MCP混在一起。

其实它们不是一回事。

Function Calling更像是：

让模型知道什么时候该调用工具，以及用什么格式发出调用指令。

MCP更像是：

让各种工具都用同一套接口标准，方便AI统一连接。

一个偏“调用动作”，一个偏“连接标准”。

八、Agent：从“你问一句它答一句”，变成“它自己完成任务”

现在，AI已经能理解你的需求，也能读取资料，还能调用工具。

但你还是要一步步指挥它：

帮我规划行程。帮我查天气。帮我查车票。帮我找酒店。帮我整理预算。

那有没有可能，你只说一句：

帮我把这周末杭州旅行安排好。

剩下的事情，AI自己去完成？

可以。

这就是：

Agent，智能体。

Agent和普通聊天机器人最大的区别是：

普通AI通常是：

你问一句，它答一句。

Agent则是：

你给它一个目标，它自己拆步骤、查资料、调用工具、记录结果，最后交付任务。

比如你说：

帮我安排杭州两天一夜旅行。

一个理想的Agent会自己判断：

第一步，确认你的预算和偏好；第二步，查天气；第三步，查高铁；第四步，找住宿区域；第五步，结合攻略规划路线；第六步，整理成一份可执行行程表。

所以，Agent不是单独某一个技术。

它更像是一个系统。

它把大语言模型、上下文、记忆、RAG、工具调用等能力组合在一起，变成一个可以独立完成任务的AI助手。

简单说：

大模型负责思考和生成，Agent负责执行和完成任务。

九、Skill：把你的经验变成AI可重复使用的能力

不过，Agent虽然能干活，但它也需要规则。

比如你希望它每次做旅行攻略时，都按照你的习惯来：

不要安排太赶；每天最多3个主要景点；优先本地餐厅；避开网红打卡点；预算必须列清楚；最后用表格输出。

如果每次都要重新说一遍，就很麻烦。

这时候就需要：

Skill，技能。

你可以把Skill理解成：

一份可以反复使用的任务说明书。

Prompt更像一次性的便签纸。

你这次写了，这次用完就结束了。

Skill更像一本小手册。

它有固定标题、固定规则、固定流程。

下次Agent遇到类似任务，就可以自动参考这份Skill，按照里面的规则去执行。

比如你可以有一个“旅行规划Skill”。

也可以有一个“客户开发Skill”。

还可以有一个“写公众号文章Skill”。

当Agent需要完成对应任务时，就调用对应的Skill。

这样做的好处是：

不用每次重新教AI；执行结果更稳定；复杂任务可以被拆成标准流程；上下文占用也更少。

十、Harness：给强大的Agent套上安全绳

当Agent越来越强，它能做的事情也越来越多。

它可以查资料、调用工具、操作电脑、整理文件，甚至帮你下单、发消息、执行任务。

但能力越强，风险也越大。

比如你让它帮你买车票。

它可能买错日期。可能选错车次。甚至可能在你没确认的情况下直接付款。

这时候，就需要给Agent加上约束。

这就是：

Harness。

Harness这个词本来有“马具、牵引装置”的意思。

放在AI里，你可以理解为：

给Agent套上的安全绳和工作边界。

它主要解决三个问题。

第一，给AI提供更完整的上下文，避免它忘记重要信息。

第二，给Agent划定红线，明确哪些事情不能做。

比如：

不能自动付款；不能删除重要文件；不能未经确认发送敏感信息。

第三，对任务结果进行检查。

如果Agent做错了，系统可以及时发现，并引导它修改。

所以，Harness的核心作用是：

让Agent在可控范围内发挥生产力，而不是失控乱跑。

毕竟，谁也不希望一觉醒来，发现AI助手把电脑里的重要文件删了。

最后：这些AI概念，其实是一条进化路线

现在我们回到最开始。

你只是对AI说了一句：

我这周末想去杭州玩。

一开始，你需要的是LLM，让AI能回答你。

后来，你发现问题要说清楚，于是有了Prompt。

你希望AI记住前面说过的话，于是有了Context和Memory。

你希望AI读取你的私人资料，于是有了RAG。

你希望AI能查车票、查天气、查酒店，于是有了Function Calling。

你希望不同工具更容易连接，于是有了MCP。

你希望AI不只是聊天，而是自己完成任务，于是有了Agent。

你希望AI按你的习惯稳定做事，于是有了Skill。

你又担心AI太强会失控，于是有了Harness。

所以你看，这些概念不是孤立的，也不是为了显得高级才出现的。

它们本质上都在解决同一个问题：

怎样让AI从“会聊天”，一步步变成“能干活、会协作、可控制”的助手。

理解了这条主线，再看这些AI热词，就不会觉得乱了。

它们不是一堆黑话，而是一层一层搭起来的能力。

AI的发展方向也越来越清楚：

从回答问题，走向完成任务；从单次对话，走向长期协作；从简单工具，走向真正的智能助手。

未来，真正有价值的AI，不只是能陪你聊天，而是能帮你把事情做成。

如果你还想继续了解：

大模型内部到底怎么运作？千亿参数是怎么训练出来的？多模态AI又是什么意思？AI Agent未来会怎么改变工作方式？

可以在后台留言告诉我。

后面我会继续用普通人也能听懂的方式，一个一个讲清楚。

点赞变机灵，转发更聪慧，a股开红灯！

如果你也在考虑 AI 落地，但不知道公司适不适合做、第一步该从哪里开始，可以先做一次 1 对 1 AI 业务诊断。

我会帮你判断：现在适不适合做、先做哪个场景、是否需要本地部署、预算怎么控制。

先判断清楚，再决定花不花钱。

点击下方卡片，预约真人 1 对 1 AI 业务诊断。