不懂AI别担心!5分钟看懂AI底层技术逻辑

只要5分钟，带你从LLM到Agent，
搭建你的AI基础世界观

还在被 “Agent机制”“LLM模型”“Token消耗” 这些AI术语搞到头大？
今天我们就来把AI底层技术的核心名词一次性说明白，不懂技术也能建立清晰的AI认知体系。

01从语言到数字：
LLM与Token的“翻译密码”

大语言模型（LLM）的“心脏”是Transformer架构，它是Google在2017年提出，后来由OpenAI的GPT-3.5带火，几乎成了所有大模型的底层引擎。

🧠 Transformer 架构示意图

LLM的工作逻辑其实很“朴素”，你可以把它理解为一场“文字接龙”游戏。

比如你问“我爱吃什么蔬菜”，它不会直接输出完整答案，而是先预测概率最高的词（“我”），再把这个词加回输入继续预测，直到输出结束符号—这就是流式输出的由来。

💡 关键认知：LLM本质是数学函数，只认识数字，不认识人类语言。

Tokenizer负责“编码”（文字→Token碎片→一串数字ID）和“解码”（一串数字ID→文字）。比如“你爱吃什么蔬菜” → “你/爱吃/什么/蔬菜”。

⚠️ 误区纠正：Token ≠ 词，它是模型自学的切分规则。

1个Token ≈ 0.75个英文单词或 1.5～2个汉字，生成回复时按Token计费，所以“Token消耗”直接影响成本与速度。

02让AI拥有“记忆”：
Context与RAG的妙用

大模型本身没有记忆，那它是怎么记住上下文的？

靠的是Context（上下文）—每次交互都会把历史对话 + 新问题打包到“临时工作台”发给模型。
Context Window（窗口容量）有限：GPT-4约105万Token，Claude Opus 4.6约100万Token，超出就会“遗忘”。

📎 RAG（检索增强生成） — 像个“文件查询专员”，从海量文档中找出最相关片段传给模型，既突破容量限制又降低成本。
🌟 应用场景：企业知识库 + AI客服，让大模型精准回答私有数据。

因此RAG技术让LLM拥有了外部记忆硬盘，结合上下文临时记忆，实现长程对话和精准引用。

03想让AI“言听计从”？
不得不提“Prompt的艺术”

Prompt即提示词，是我们给模型的指令。

写得太模糊（如“帮我出张猫咪的图”），模型可能随机输出布偶猫、金渐层甚至叮当猫；

写得精准（如“英短蓝白，主题吃罐罐，可爱特写”），效果立刻天差地别。

🎯 提示词范例——精准与模糊的差距

❌ 模糊Prompt： “写一首关于春天的诗” → 输出可能浮于表面。
✅ 精准Prompt： “你是一位田园派诗人，写一首14行现代诗，意象包含樱花、细雨、青石板，表达怀念童年的情绪” → 输出质量飙升。

Prompt分两种角色指令：

User Prompt：用户直接输入的任务（“1+1等于几？”）。
System Prompt：开发者后台设定的“人设与规则”，例如“你是耐心的数学老师，不能直接给答案，要引导思考”。

🌟 两者结合，AI既遵守规则又完成任务：比如问“1+1”，模型回复“你有1个苹果，又拿来1个，一共几个呀？”——优雅引导。

04让AI“感知世界”：
Tool与MCP协议

大模型的知识截止于训练时间，无法主动获取实时信息（比如“今天北京天气”），因为它被“关在黑盒子里”。

这时候就需要Tool（工具）—像给模型插了一根“外接管子”，让它调用天气API、搜索引擎等外部接口。

🔌 不同平台（OpenAI、Anthropic、Google等）工具的接入规则五花八门，开发者苦于为同一工具写多套代码。
🚀 MCP（模型上下文协议） 横空出世：AI界的“Type-C接口”，统一工具接入规范，一次开发，多平台直接调用，大幅降低生态适配成本。

通过Tool，AI可以查询实时股价、预定机票、甚至控制智能家居，让LLM从“纸上谈兵”进化为“行动派”。

05从“问答机器”到“超级助手”：
Agent与Skill的进化

Agent（智能体） 是AI的“自主大脑”，能拆解复杂任务、自主规划执行。

比如你让它“查天气，不下雨就找附近公园”，它会：①调用定位工具拿经纬度 → ②调用天气工具判断是否下雨 → ③调用地图工具搜索公园 — 全程自主决策。

🤖 Agent 工作流示例

用户指令：“帮我预订今晚7点三里屯附近的川菜馆，人均不超过150。”

Agent自动：调用位置服务 → 搜索符合评分餐厅 → 比对价格 → 调用预订API → 返回确认链接。无需人工分步指引。

而Agent Skill 是Agent的“行为说明书”：

提前规定好身份、步骤、输出格式（例如“下雨要提醒带伞，回复需列清单”），Agent按需读取，既能节省Token 又个性化定制行为风格。

🔺 AI底层架构 · 金字塔模型

🧠 Agent & Skill(自主大脑 · 规划执行)

🔌 Tool & MCP协议(能力拓展 · 外部世界连接)

⚙️ Context · Prompt · RAG(记忆加工 · 意图控制 · 外挂知识库)

📊 LLM & Token(数据处理基本单元 · 数学函数核心)

从底层Token到顶层智能体，层层堆叠构成AI Agent完整能力

这些技术层层叠加，从原始的Token翻译，到上下文记忆+RAG增强

再到工具接入+MCP统一，最终构建出能感知、规划、行动的智能体（Agent）。这就是现代AI的完整世界观。

📚 一图回顾 · 核心概念清单

LLM 大语言模型Token / TokenizerTransformerContext WindowRAG 检索增强Prompt 工程System/User PromptTool 调用MCP 协议Agent 智能体Agent Skill

💡 总结：从LLM到Agent的过程，就是给“数学函数”依次赋予记忆、工具、规划能力的进化之旅。无需技术背景，理解这些模块，你就掌握了AI未来的风向标。

🎯 搭建AI基础世界观 · 从术语到认知升级

只要5分钟，带你从LLM到Agent，搭建你的AI基础世界观

只要5分钟，带你从LLM到Agent，
搭建你的AI基础世界观