
如果你关注过近期 AI 领域的进展,一定经常听到“Agent”这个词。
有人说它是大模型之后的下一个爆发点,也有人担心它还不够成熟、容易出错。那么,Agent 到底是什么?它背后的 Token、RAG、MCP、Harness 这些术语又意味着什么?
为了把这些问题讲清楚,我们请来了一位专门研究 AI Agent 的工程师机器人“小A”,以及一位对技术充满好奇但刚入门的小男孩“小E”。下面的对话,就是他们围绕 Agent 核心概念的逐一拆解。

📖 详细解说:
小E:小A,我经常听到“AI Agent”,但总觉得它就是个能聊天的机器人,和大模型有什么区别?
小A:很好的问题。传统的大模型,比如你直接问它“帮我写一封邮件”,它确实能写。但它主要是被动响应你的指令,生成一段文字就结束了。Agent 则不同。它像一个有执行力的虚拟员工:当你给它一个目标,比如“帮我预订下周去北京的机票和酒店”,它能自己把这个任务拆解成几个步骤,整个过程是循环的:执行一步,观察结果,再决定下一步,直到完成目标。
小E:所以 Agent 比大模型多了一套“动手”和“思考”的能力?
小A:没错。学术上常说的 Agent 三大支柱是:规划、记忆和工具调用。规划让它能分解任务;记忆让它能记住之前做过什么、学到过什么;工具调用让它能连接外部的搜索引擎、数据库、计算器等等。而所有这些的核心大脑,仍然是一个大语言模型。
Token
文本交流的最小单位
📖 详细解说:
小E:你刚才提到大模型,我总听人说“Token”,那到底是什么?
小A:Token 可以理解为大模型处理文字时的最小语义碎片。一段文本会被分词器切分成一个个 token,每个 token 对应一个数字 ID,模型主要靠这些数字进行运算。比如“我喜欢 AI”这句话,可能会被切成“我”、“喜欢”、“AI”三个 token。英文单词有时会被切成更小的子词。控制输入输出长度、计算成本、生成速度,都离不开 Token 这个概念。一个中文汉字通常对应一个 token,一段 1000 字的文章大约对应 1000 多个 token。
小E:那模型能一次处理多少 token? 小A:每个模型有它的上下文长度,比如 8K、128K 甚至 1M token。这决定了它能“记住”多长的对话或多大的文档。了解 Token 有助于我们设计更高效的 prompt,避免不必要的浪费。
RAG
让模型减少凭空捏造
📖 详细解说:
小E:我遇到过模型胡说八道的情况,比如问它一个冷门历史事件,它编得有模有样,但全是错的。这是怎么回事? 小A:这叫幻觉。因为大模型本质上是一个概率生成器,它并不真正知道什么是“真实”,只是根据统计规律预测接下来最可能的词。为了减少幻觉,一种主流技术就是 RAG,检索增强生成。它的思路很简单:不单纯依赖模型内部存储的知识,而是先去外部知识库搜索相关信息,把搜到的内容作为“参考资料”提供给模型,让模型基于这些资料生成答案。
小E:就像开卷考试,先查资料再回答? 小A:是的。如果只靠预训练的知识,它可能给出过时的或者错误的数字。而 RAG 会先检索公司财报数据库,拿到准确数字后,再生成回复。这样不仅能提高准确率,还能实时更新知识,无需重新训练模型。
MCP
连接外部世界的标准化协议
📖 详细解说:
小E:那 Agent 怎么去调用外部工具呢?比如让它去查数据库,总不能每次都要写一段新代码吧? 小A:这正是 MCP 要解决的问题。可以理解为 AI 领域的一个通用接口标准。它定义了一套标准方式,让任何遵循该协议的 Agent 都能连接上文件系统、数据库、API、本地软件等外部资源。开发者只要按照 MCP 规范实现一个服务端,Agent 就能通过统一的协议去调用它,类似于用同一个 USB 接口可以插鼠标、U盘、键盘。 小E:能给个具体例子吗? 小A:比如你想让 Agent 读取你电脑上的一个 Excel 文件,并生成图表。如果没有 MCP,你需要写很多胶水代码。有了 MCP,Agent 只需说“调用 MCP 的文件读取工具,路径为 /data/report.xlsx”,就可以拿到数据。目前许多开源框架已经内置了 MCP 的支持,使得 Agent 的能力扩展变得比较方便。
Skill
封装可复用的专业能力
📖 详细解说:
小E:那如果我想让 Agent 完成一系列复杂的、针对特定领域的任务,比如财务对账或者代码审查,总不能每次重新教它吧? 小A:这就轮到 Skill 了。Skill 本质上是一个针对特定场景的能力包,里面包含了完成该任务所需的步骤描述、调用哪些工具、遵循什么规则。通常一个 Skill 会写成一个
skill.md文件,Agent 读到这个文件,就知道如何扮演一个“财务专家”或“代码评审员”。小E:听起来像是一个岗位的操作手册? 小A:正是这样。例如一个“报销审核 Skill”会告诉 Agent:首先接收报销单图片,然后调用 OCR 工具提取金额和日期,接着对比公司差旅政策,如果超出标准就标记为异常并通知人工审核。用户只需要说“用报销审核 Skill 处理这张图片”,Agent 就会自动按流程执行。Skill 让专业能力可以被复用和共享,有效降低了 Agent 在不同业务场景下的开发成本。
记忆模块
短期与长期的双层结构
📖 详细解说:
小E:Agent 能记住之前聊过的话题吗?比如我今天和它讨论项目 A,明天再问它,它还记得吗? 小A:这取决于记忆设计。通常 Agent 有两层记忆:短期记忆和长期记忆。短期记忆就是当前会话的上下文,比如你们最近几轮对话。但受 token 长度限制,如果会话太长,就需要做截断或者摘要压缩。长期记忆则是把重要的历史信息向量化后存入向量数据库,以后可以通过语义检索重新召回。
小E:所以长期记忆有点像它的个人笔记本,可以跨越不同会话? 小A:对。比如你告诉 Agent 你的名字是小E,它会把这条信息存入长期记忆。下次你开启一个新对话,它检索到这条记忆,就能直接称呼你“小E”。这种设计让 Agent 具备了持续学习和个性化服务的能力。
ReAct 与自我反思
推理、行动与修正的闭环
📖 详细解说:
小E:我明白了记忆和工具。但 Agent 到底是怎么“思考”的?它会犯错吗?比如它调错了 API 或者推理出 bug?
小A:很好的问题,这触及了 Agent 执行的核心。它采用一种叫 ReAct 的策略,也就是“推理-行动-观察”的循环,而这个循环天生就包含了自我修正。
小E:边做边想,还能边改错?
小A:正是如此。比如你让它写一段代码。它不会一次写完,而是先写一版(行动),然后自己运行测试一下(观察),如果发现报错,它会读取错误信息(反思),再修改代码(修正)。这个“行动-评估-修正”的循环会一直进行,直到任务成功。这让它在处理编程或计算这类复杂任务时非常可靠。
Harness 工程
让 Agent 安全稳定地运行📖 详细解说:
小E:上面的这些组件听起来很不错,但要让 Agent 在真实环境里稳定运行,是不是还需要一套基础设施?
小A:你抓住了关键点。Harness 工程就是为 Agent 提供的运行环境和管控框架,包括:上下文管理、安全沙箱、多轮测试、日志与监控。
小E:安全沙箱是什么意思?
小A:如果让 Agent 直接在你的电脑上执行任意代码,存在安全风险。沙箱就是一个相对隔离的运行环境,Agent 在里面可以读文件、运行脚本,但无法删除系统文件或者访问你的私人密码。
小A:实际上,我们前面提到的 ReAct 框架,就可以看作是一种最简化的 Harness。但对于复杂的任务,我们需要更强大的 Harness。例如,像 Anthropic 推出的 Claude Code 就是一个更加完备的 Harness,不仅包含安全的沙箱环境,还集成了文件系统访问、网络请求、多语言代码执行等一系列复杂能力。其实,一个好的 Harness 工程能保证 Agent 既高效又安全,同时它会记录 Agent 的所有行动轨迹,方便开发者复盘和优化。
总结

小E:今天信息量好大,我试着总结一下:Agent 以大模型为大脑,通过 Token 理解输入,用 RAG 检索外部知识减少幻觉,靠 MCP 标准连接各种工具,用 Skill 封装专业流程,借记忆模块保持上下文,采用 ReAct 策略循环推理与行动,加入自我反思修正错误,最后在 Harness 工程的安全环境中运行,并遵循 SDD 规范来减少需求偏差。是这样吗? 小A:你总结得很到位。不仅记住了每个概念,还理清了它们之间的关系。实际上,任何一个准备投入生产的 AI Agent,都需要认真考虑这九个方面的设计。缺了其中某些环节,就可能出现功能缺陷或安全隐患。
小E:看来要做出一个真正好用的 Agent,需要的远不止一个聪明的模型。 小A:正是如此。这也是为什么我们说 AI Agent 是一个系统工程。从最底层的 Token 编码,到面向业务的 Skill 封装,再到保障稳定运行的 Harness 工程,每一层都有其重要作用。
希望今天的对话能帮助你和其他读者建立起对 Agent 核心技术的整体认知,无论你是开发者、产品经理,还是技术爱好者,都能从中获得实用的启发。
你对那块内容印象深刻?欢迎在评论区分享你的看法,或将文章转发给对Agent内容感兴趣的朋友,一起探讨如何构建更智能的Agent!
【关注 AGI-Eval 大模型评测公众号】
关注➕点赞➕评论
🎁 随机掉落5个AGI-Eval社区精美礼品

夜雨聆风