自从“龙虾”火了,我每天都能刷到Token 、LLM、context、prompt、tool、MCP、Agent skill、Agent这些概念。乍一听晕头转向,但了解之后,发现这些行业黑话似的技术名词,其实不难理解。
我把AI智能体(比如前阵子大火的“小龙虾”)想象成一家智能公司。在这个公司里,每个概念都有它独特的职位和作用。我试着从“底层基础”到“上层应用”的顺序来理解它们:
Token (词元)
这是AI处理信息的最小单位。AI不像我们一样看整句整段的话,它把文字切碎成一个个小块,这些小块就是Token。比如“你好”可能被切成“你”和“好”两个Token。AI计算和收费都是按Token算的。没有它,AI就没法“吃”进数据。
Token不一定是完整的单词或汉字,也可能是一个单词的一部分,比如“unhappiness”被切成“un”和“happiness”;或者标点符号,比如“Hello, world!”被切成“Hello” “world”“!”,因为标点符号携带了重要的语法和语气信息(问句、感叹、停顿等),AI需要单独“看到”它们才能更好地理解句子的结构和情感。如果不把它们切开,AI可能会觉得“world!”和“world”是两个不同的东西,反而造成混乱。
不同模型的分词方式不同,同一段话产生的Token数量可能差很多。调用AI服务时,输入和输出都要按Token付费,所以写提示词时太啰嗦会多花钱。另外,每个模型能处理的Token总数有上限(叫上下文窗口),超出后最早的内容就会被忘掉。
LLM (大语言模型)
这是整个公司的“超级大脑”(比如GPT)。它读海量的书和文章,学说话、逻辑和知识。负责思考、理解意思和生成回答。没有它,就没有智能可言。但它只会思考不会干活。
LLM的本质是一个巨大的数学网络(通过大量数据训练出来的统计模型),它通过预测下一个词元来学习语言规律,它并不会真的“记住”所有训练数据,所以有时候会编造出不存在的“事实”。另外,LLM的知识只截止到训练结束的那个时间点,问它今天发生的新闻,它原本是不知道的,除非给它外挂搜索工具,比如让它可以联网查信息。
Context (上下文)
当你和AI聊天时,它记得你刚才说了什么,也记得它自己刚才回了什么,这些连起来的信息总和就是Context。它决定了AI能不能连贯地和你对话。不过这个记忆容量是有限的(叫Context Window),装满了就会忘掉最早的事情。
这个窗口的大小因模型而异,小的可能只有几千个Token(只够聊几轮),大的比如GPT-4 Turbo支持12.8万个Token(大约相当于一本厚书的字数)。当对话超过窗口容量时,模型会采用“先进先出”的策略(最早的那些对话被挤掉)。所以长对话中,如果你发现AI忘了最开始的要求,往往就是这个原因。一些高级用法会手动总结历史对话,或者把重要信息存到外部数据库(专门存储记忆),来绕过这个限制。
Prompt (提示词)
这是你给“超级大脑”(LLM)下达的任务书。你输入的“帮我写首诗”就是Prompt。它包含了你的问题、要求,甚至你设定的规则(比如“你是一个语文老师”)。Prompt的质量直接决定了AI回答的好坏。它是人类指挥AI的直接手段。写好Prompt有不少技巧:比如直接问不给例子(称为“零样本”),或者先给两个例子再问(这叫“少样本”),或者让AI一步步写出思考过程(这叫“思维链”)。
写在对话开始前的指令(叫“系统提示”),可以用来固定AI的角色和行为规则,比如“你是一位严谨的代码审查员,只输出专业意见”。反过来,如果Prompt写得太模糊(比如只说“写点东西”)或者缺少约束(比如没限制字数),AI的回答就容易跑偏。
Tool (工具)
前文提到,LLM只会思考不会干活,工具让AI从“只会动脑”变成了“能干活”。常见的工具包括计算器(让AI算数学)、搜索引擎(让AI查实时信息)、代码解释器(让AI运行代码来画图或计算)、数据库查询(让AI查表格)等等。
它的工作方式是这样的:当LLM觉得需要某个工具时,它会输出一个特殊的指令(比如“调用计算器,参数是25的平方根”),外部程序执行后把结果塞回对话里,LLM再根据这个结果继续回答。很多大模型平台提供了标准化的工具调用接口(让开发者可以方便地给AI接上各种功能),可以简化开发工作。
MCP (模型上下文协议)
这是连接大脑(LLM)和工具(Tool)的“万能插头”。以前想连一个工具得专门写代码适配,很麻烦。有了MCP这个标准协议,不管是什么工具,只要符合标准,AI就能直接插上用,极大地降低了连接成本。
具体来说,MCP是Claude模型团队(Anthropic公司旗下)提出的开放协议,它把工具和数据源封装成服务端(符合MCP标准的工具适配器),AI客户端(比如Claude的桌面软件)只要支持MCP,就可以即插即用地接入文件系统、GitHub、聊天工具等各种服务。
以前,你想让AI使用一个工具(比如查天气、读本地文件、发邮件),需要给AI写一段专门的说明,告诉它这个工具怎么调、参数怎么传。每个工具都得写一份不同的说明书,很麻烦。MCP出现后,所有工具都改成同一个插头形状。AI只要认识这个插头,就能直接插上任何一个符合MCP标准的工具,不用再单独给某个工具写使用说明了。
Agent (智能体)
这是“全能数字员工”,它是那个“大脑”(LLM)、手脚+规划能力的结合体。你给它一个模糊的目标(比如“帮我策划一次旅行”),它会自己拆解步骤:先查机票,再订酒店,最后做攻略。Agent能自主干活,不需要你一步步教它怎么做,它是AI技术真正落地的形态。
Agent的工作循环通常是:思考(接下来该做什么)→ 行动(调用某个工具)→ 观察(看到工具返回的结果)→ 再思考……直到目标达成。
与普通聊天机器人的区别在于,普通机器人只会执行你明确告诉它的每一步,而Agent可以自己决定步骤、自己处理意外情况。比如订机票时发现涨价了,它会自己尝试换日期或换航空公司,不需要你来指挥。
Agent Skill (智能体技能)
它是员工的专业技能包。为了让Agent干活更专业,我们会预先给它写好一套规则。比如“代码审查技能”,里面写好了怎么检查代码、标准是什么。
一个通用的Agent什么都会一点,但不专精。你给它装上一个Skill,就等于把它送去做个专科培训,让它变成了某个领域的熟练工。比如“代码审查Skill”这本手册里写着:你是一名代码审查专家,你要先读代码,然后检查语法错误,再检查性能问题,最后输出一份打分报告,并且只能调用读文件和运行检查工具。Agent照着这本手册干活,就不会跑偏,质量也有保证。
Token组成数据,喂给LLM,通过Prompt和Context与LMM交流,再通过MCP给它接上Tool,能干活,最后,把这些包装起来,配上Agent Skill,就变成了能为你自主工作的Agent。
大概是这样……
人类声明
本栏目内容旨在以通俗易懂的方式普及人工智能基础知识,所有信息均基于公开资料及作者理解整理而成。虽力求准确与严谨,但AI领域知识更新迅速,部分内容可能存在滞后或偏差,建议读者结合最新资料及自身判断进行学习与验证。
如有存在侵权、不希望被转载等情况,媒体或个人皆可私信本账号说明,账号将立即进行删除处理。
夜雨聆风