
别担心,你不是一个人。这些术语构成了现代AI系统的骨架,理解了它们,你就能像看懂乐高说明书一样,看透市面上所有AI产品是如何拼装运作的。
今天,我们就化繁为简,从最底层的核心到最上层的应用,把这些概念一个一个拆开揉碎,让你彻底明白。
第一层:基石——大模型与它的“世界”
1. LLM (Large Language Model / 大语言模型)
这是所有AI技术的绝对核心与发动机。你可以把它想象成一个超级强大的“文字接龙大师”。它的工作方式,本质上就是根据你给的上文,预测下一个最可能出现的字或词,如此循环,直到生成完整回答。今天所有让我们惊叹的AI对话、创作、推理能力,都源于此。GPT、Claude、Gemini等,都是不同公司打造的LLM产品。
2. Token (最基本数据单元)
这是大模型“吃”进去和“吐”出来的最基本数据单元。我们人类看的是“词”和“句”,但模型内部处理的全是数字。Token就是文本被切分后的一个片段,并被映射成一个唯一的数字ID。
· 关键洞察:Token不等于“词”。比如“程序员”可能被切成“程序”和“员”两个token;“helpful”可能被切成“help”和“ful”。这是模型自己学会的一套文本切分规则。平均来说,1个token约等于0.75个英文单词或1.5-2个汉字。理解token是理解一切成本、长度限制的基础。
3. Context (上下文) 与 Context Window(上下文窗口)
大模型没有记忆,那它怎么能记住我们之前的对话?答案是:我们每次都把完整的聊天历史重新发给它。这个模型每次处理任务时所接触到的所有信息总和,就叫做Context(上下文)。
它就像一个临时记忆体或“工作台”,上面不仅放着当前的用户问题(User Prompt),还堆着之前的对话记录、系统指令(System Prompt)、工具列表,甚至是它自己刚刚生成的内容。
而这个“工作台”的大小是有限的。它能容纳的最大token数量,就叫做Context Window(上下文窗口)。比如,一个10万token的窗口,大概能放下15-20万汉字,足够塞进一本中等厚度的书。目前顶级模型的窗口可达百万token级别,能力非常强大。
第二层:交互——我们如何与引擎对话
4. Prompt (提示词)
这就是我们给大模型的具体指令或问题。“帮我写一首诗”是prompt,“总结这篇文章”也是prompt。不要把它想得太复杂,它就是你和AI之间的“人话”接口。
· User Prompt (用户提示词):就是你作为用户直接输入的问题。
· System Prompt (系统提示词):这是开发者在后台“悄咪咪”设置的,用于定义模型的
人设和行为规则。比如“你是一个严谨的数学老师,要引导学生思考,不能直接给答案”。System Prompt是模型的“行为准则”,User Prompt是具体的“待办事项”,两者配合,才能让模型既守规矩又办成事。5. Tool (工具) / Function (函数)
大模型有个致命弱点:它是个“宅男”,知识截止于训练数据,无法感知实时外界(比如查天气、算汇率、查数据库)。Tool就是为它打开的“窗户”和“手脚”。本质上,一个Tool就是一个函数:输入参数,执行操作,返回结果。
例如,一个“天气查询Tool”,输入城市和日期,它能调用外部API拿到实时天气并返回。大模型自己不能调用工具,但它可以生成调用工具的指令,由背后的“平台”代码去执行。这实现了AI与真实世界的连接。
6. MCP(Model Context Protocol / 模型上下文协议)
既然工具这么好,怎么接入呢?问题来了:OpenAI、Anthropic(做Claude的公司)、Google等各大厂,接入工具的标准各不相同。开发者为ChatGPT写一遍工具,还得为Claude再写一遍,效率极低。
MCP就是为了解决这个痛点而生的统一工具接入协议标准。你可以把它理解为AI世界的USB-C接口。工具开发者只需按照MCP标准开发一次,所有支持MCP的平台就都能使用这个工具,极大提升了生态效率。

第三层:进化——从“工具人”到“智能体”
7. Agent(智能体)
有了工具,大模型就能解决更复杂的问题了。比如用户问:“今天天气如何?如果下雨,帮我找找卖伞的店。” 这需要连续调用多个工具(定位 -> 天气 -> 附近店铺查询),并且根据上一步的结果决定下一步做什么。
这种能够自主规划、自主调用工具、持续运作直至完成复杂目标的AI系统,就叫做Agent。它不再是“一问一答”的聊天机器人,而是具备了初步思考和执行链条的“智能体”。像AutoGPT、Claude Code、Devin等,都是Agent理念的产物。
8. Agent Skill (智能体技能)
但光有Agent还不够。如果你想让它成为你的“出门助手”,每次都能根据你的私人习惯(下雨带伞、刮风穿外套、必须带手机)和格式要求来提醒你,难道每次提问都要把一长串规则重新打一遍吗?太麻烦了。
Agent Skill就是解决这个问题的:它本质上是一份给Agent看的、提前写好的“任务说明书”。这份文档里定义了:
· 元数据:技能叫什么、是干什么的。
· 指令层:详细的任务步骤、判断规则、输出格式要求,甚至包括示例。
开发者只需要把这份说明书(通常是一个固定格式的Markdown文件)放在指定位置,Agent在遇到相关问题时,就会自动读取里面的指令,严格按照你的要求去执行任务、格式化输出。这让Agent变得高度可定制和个性化,真正成为你的专属助手。
结语:一张图看清AI世界的地基
现在,让我们把这些概念串联起来,你就能洞悉整个AI应用的底层逻辑:
核心引擎(LLM) 以基本单位(Token) 处理着它的临时记忆(Context),记忆体的容量由上下文窗口(Context Window) 决定。
我们通过提示词(Prompt,包括User和System)向引擎发出指令。为了让引擎能获取外界信息,我们为它配备了工具(Tool),而为了让工具能通用,行业制定了统一协议(MCP)。
在此基础上,我们构建出能自主使用工具解决问题的智能体(Agent),并最终通过编写详细的技能说明书(Agent Skill),让智能体忠实地按照我们每个人的复杂习惯和偏好来工作。
这就是从ChatGPT到Copilot,从Midjourney到Devin背后,那个共同且精巧的运作框架。理解了这些,你再看到任何新的AI产品或技术名词,都能迅速将其归位,看透其背后的设计深意。
AI不再神秘,它只是一套设计精妙的积木,而我们,正站在学习如何搭建它的起点上。
理解了这些核心概念,你是否对某个AI应用的工作原理产生了新的猜想?欢迎在评论区分享你的发现!如果觉得这篇文章有帮助,别忘了点赞、收藏、分享给更多需要的朋友。
夜雨聆风