只要5分钟,带你从LLM到Agent,
搭建你的AI基础世界观
今天我们就来把AI底层技术的核心名词一次性说明白,不懂技术也能建立清晰的AI认知体系。
LLM与Token的“翻译密码”
大语言模型(LLM)的“心脏”是Transformer架构,它是Google在2017年提出,后来由OpenAI的GPT-3.5带火,几乎成了所有大模型的底层引擎。

LLM的工作逻辑其实很“朴素”,你可以把它理解为一场“文字接龙”游戏。
比如你问“我爱吃什么蔬菜”,它不会直接输出完整答案,而是先预测概率最高的词(“我”),再把这个词加回输入继续预测,直到输出结束符号—这就是流式输出的由来。
⚠️ 误区纠正:Token ≠ 词,它是模型自学的切分规则。
1个Token ≈ 0.75个英文单词 或 1.5~2个汉字,生成回复时按Token计费,所以“Token消耗”直接影响成本与速度。
Context与RAG的妙用
大模型本身没有记忆,那它是怎么记住上下文的?
靠的是Context(上下文)—每次交互都会把历史对话 + 新问题打包到“临时工作台”发给模型。
Context Window(窗口容量)有限:GPT-4约105万Token,Claude Opus 4.6约100万Token,超出就会“遗忘”。
🌟 应用场景:企业知识库 + AI客服,让大模型精准回答私有数据。
因此RAG技术让LLM拥有了外部记忆硬盘,结合上下文临时记忆,实现长程对话和精准引用。
不得不提“Prompt的艺术”
Prompt即提示词,是我们给模型的指令。
写得太模糊(如“帮我出张猫咪的图”),模型可能随机输出布偶猫、金渐层甚至叮当猫;
写得精准(如“英短蓝白,主题吃罐罐,可爱特写”),效果立刻天差地别。
❌ 模糊Prompt: “写一首关于春天的诗” → 输出可能浮于表面。
✅ 精准Prompt: “你是一位田园派诗人,写一首14行现代诗,意象包含樱花、细雨、青石板,表达怀念童年的情绪” → 输出质量飙升。
Prompt分两种角色指令:
User Prompt:用户直接输入的任务(“1+1等于几?”)。
System Prompt:开发者后台设定的“人设与规则”,例如“你是耐心的数学老师,不能直接给答案,要引导思考”。
Tool与MCP协议
大模型的知识截止于训练时间,无法主动获取实时信息(比如“今天北京天气”),因为它被“关在黑盒子里”。
这时候就需要Tool(工具)—像给模型插了一根“外接管子”,让它调用天气API、搜索引擎等外部接口。
🚀 MCP(模型上下文协议) 横空出世:AI界的“Type-C接口”,统一工具接入规范,一次开发,多平台直接调用,大幅降低生态适配成本。
通过Tool,AI可以查询实时股价、预定机票、甚至控制智能家居,让LLM从“纸上谈兵”进化为“行动派”。
Agent与Skill的进化
Agent(智能体) 是AI的“自主大脑”,能拆解复杂任务、自主规划执行。
比如你让它“查天气,不下雨就找附近公园”,它会:①调用定位工具拿经纬度 → ②调用天气工具判断是否下雨 → ③调用地图工具搜索公园 — 全程自主决策。
用户指令:“帮我预订今晚7点三里屯附近的川菜馆,人均不超过150。”
Agent自动:调用位置服务 → 搜索符合评分餐厅 → 比对价格 → 调用预订API → 返回确认链接。无需人工分步指引。
而Agent Skill 是Agent的“行为说明书”:
提前规定好身份、步骤、输出格式(例如“下雨要提醒带伞,回复需列清单”),Agent按需读取,既能节省Token 又个性化定制行为风格。
这些技术层层叠加,从原始的Token翻译,到上下文记忆+RAG增强
再到工具接入+MCP统一,最终构建出能感知、规划、行动的智能体(Agent)。这就是现代AI的完整世界观。
夜雨聆风