最近和朋友聊天。他说,现在打开任何一篇 AI 文章,三秒钟就不想看了。
我说为啥。
他说,第一行就是「LLM 结合 RAG 实现 Agent 多模态推理」,每个字都认识,连起来不知道在说什么。就跟一个从来没踢过球的人,第一次看球赛听到越位、帽子戏法、战术犯规一样。你当然懵。
AI 这两年的新词,不是按部就班一个一个来的,是一股脑砸过来的。你有心想学,但没人帮你排个顺序,哪个先了解、哪个后了解、哪个理解了前面的才能懂后面的。
这几天抽时间,把大家日常能碰到的 AI 词汇筛了一遍,筛出来 21 个。然后按「从认识到驾驭」的逻辑,码成了一栋四层楼。
一楼,AI 到底是什么。搞清楚几个天天挂在嘴边但其实没认真想过的词。
二楼,AI 内部怎么运转。模型怎么工作,你花的钱和时间都去哪了。
三楼,怎么跟 AI 打交道。提示词、幻觉、温度,这些是每天都会碰到的东西。
四楼,怎么让 AI 变成你的系统。从聊天工具到干活搭档,最后一层。
每个词我会告诉你它是什么,以及这件事为什么值得你在意。
好,从一楼开始。
一楼 · AI 到底是什么
这四个词的关系,其实是层层缩小的。
很多人一上来就问「AI 和机器学习什么关系」「深度学习又是啥」。其实它们不是并列的,是套娃。大的套小的,小的套更小的。
1人工智能
人工智能,就是让机器做那些通常需要人的智力才能做的事。识别图片里有没有猫、听懂你说的话、下围棋赢你,都算。
这个词是最大的那个圈。底下所有词,机器学习、深度学习、大语言模型,全都在这个圈里面。
但注意一个事。人工智能这个名字有误导性。它让你觉得机器真的在「思考」,其实没有。它是在做数学计算,算出一个概率最高的答案。这一点,你往下看两层就懂了。
2机器学习
机器学习是人工智能的子集。它的核心逻辑跟想象的可能不一样。
传统编程,是把规则写好。如果温度超过 30 度,开空调。规则是你定的,程序只是执行。机器学习反过来。你给它一堆例子,一万张标了「有猫」和「没猫」的照片,它自己从例子里找出规律。不用写规则,它自己学。
这就是为什么 ChatGPT 能跟你聊天。没人给它写「什么时候该幽默」「什么样算礼貌」的规则。它看了几万亿字的文本,自己摸出了语言是怎么组织的。
3深度学习
深度学习是机器学习的子集。它用的模型结构,粗糙地模仿了人脑的神经元连接方式。
关键变化在规模。传统的机器学习,几百个参数就算多的了。深度学习动辄几十亿参数。参数越多,能捕捉的规律越细微。AI 突然变厉害了,不是理论有多大的突破,是算力够了,能把网络堆很深。
4生成式 AI
生成式 AI 是深度学习的应用方向之一。它的特点是能创造新内容,不只是分类和识别。
以前的 AI 是你给它一张图,它告诉你里面有猫。这是判别式。生成式 AI 是你给它一句话,「画一只猫坐在沙发上喝咖啡」,它给你画一张从来没存在过的图。它不是在检索已有的图片,是真的在创作。
ChatGPT、Claude、Midjourney、Sora,全是生成式 AI。你这两年感受到的「AI 突然变强了」,指的其实就是生成式 AI 的爆发。
一楼到这。记住一件事,这四个词是套娃,从大到小。以后有人问你 AI 和机器学习的区别,你一句话就能说清楚,AI 是大圈,机器学习是大圈里面那个中圈。
好,上楼。
二楼 · AI 内部怎么运转
一楼讲完了 AI 是啥。现在上二楼,咱们看看它到底怎么干活的。你花的每一分钱、等的每一秒钟,背后都是这几个词决定的。
5大语言模型
大语言模型,就是现在在对话框里聊天的那个东西。ChatGPT、Claude、DeepSeek,说到底都是大语言模型。
它只有一个核心能力,预测下一个词。
你输入「今天天气真」,它算出接下来最可能是「好」。然后它把「好」加进去,接着预测下一个。今天天气真好,下一个是「,」。今天天气真好,,下一个是「适合」。一字一字,全这么出来的。
听起来很简单对吧。但就是这个「猜下一个词」的能力,规模大了之后,忽然能推理、能翻译、能写代码了。这事到今天也没人完全解释清楚,但它就是发生了。
6参数
参数就是模型脑细胞的数量。你可以把它想象成旋钮,模型在训练过程中,反复调整这些旋钮,直到「猜下一个词」的准确率达到最高。
一个模型有多少参数,大致决定了它能记住多少知识、能处理多复杂的推理。
但这不意味着参数越多越好。参数多,推理慢,成本高。最近一年的趋势反而是用更小的模型,通过更聪明的训练方法,达到差不多的效果。
7Token
Token 是你跟 AI 之间真正的计价单位。
你用 ChatGPT 的 API,账单上写的是「每百万 Token 多少钱」。很多人不知道 Token 是什么,以为是字数。不完全对。
一个 Token 大约等于 0.75 个英文单词,或者中文的一个汉字通常对应 1 到 2 个 Token,不同模型切分方式不一样。OpenAI 有个在线工具可以自己试,输一段话看看分了多少个 Token。
每问一次问题,花的 Token 包括两部分。你输入的话,加上 AI 输出的回答。GPT-4 的 128K 上下文,指的就是一次最多处理 12.8 万个 Token。这大概是一本中等厚度小说的长度。
那为啥要在意 Token 呢。因为它直接跟你的钱包挂钩。同样一个问题,不同模型消耗的 Token 量可能差一倍。你对 Token 有概念,你才能理解 AI 的计费逻辑。
8上下文窗口
上下文窗口,简单说就是 AI 的短期记忆容量。
你跟 ChatGPT 聊天,它会记得你十分钟前说的话,靠的就是上下文窗口。但它是有限的。超出窗口的对话,AI 就忘掉了,就跟没发生过一样。
2024 年之前,上下文窗口还很短。GPT-3.5 只有 4K 的 Token,大概三千个中文字。你现在用的 ChatGPT、Claude 基本都能到 128K 以上。Google 的 Gemini 甚至到过 100 万。
长上下文带来的变化是,你可以把一整本书扔进去,让它帮你总结。以前做不到的事,现在是标配。
9推理速度
推理速度,就是模型「想」了多久才回答。
为什么有的模型秒回,有的要等十几秒。两个因素。模型大小,参数越多,计算量越大。还有你问的问题复杂度,越复杂,需要「思考」的 Token 越多。
你要是在做实时对话,速度很重要。你要是在做深度分析,慢一点无所谓,甚至慢一点往往意味着它真的在多步推理。
推理模型,输出速度比其他模型慢很多,因为它要先在内部「自言自语」一段推理过程,然后再给你正式答案。你看着它在转圈,其实它在跟自己做头脑风暴。
10Embedding
Embedding,中文叫向量化或者嵌入。
它做的事很简单。把任何东西,一段文字、一张图片、一段音频,转成一串数字。这串数字代表了这个东西的「语义位置」。意思相近的东西,这些数字在数学空间里的距离更近。
比如说,「苹果」和「香蕉」的向量距离,比「苹果」和「汽车」的近很多。模型不懂中文也不懂英文,它只懂数字。它通过比较向量距离来判断两个东西是不是在说同一件事。
Embedding 是 RAG 的基础。没有它,AI 就不能从文档库里搜出最相关的内容。这个在四楼讲 RAG 的时候还会回来。
二楼到这。六个词,全都在解释一件事,AI 这个大模型,怎么看、怎么记、怎么算。你不需要会写代码,但你知道 Token 是什么,就能理解为什么 AI 聊天聊着聊着突然忘了你在说什么。你知道参数是什么,就能理解为什么有些模型免费有些模型贵。
上三楼。
三楼 · 你跟 AI 怎么打交道
一楼认清了身份,二楼搞懂了构造。三楼就是每天干的事,怎么跟 AI 说话,怎么让它更听话。
11提示词
提示词,Prompt,就是对 AI 说的话。
你可能觉得这有什么好讲的,不就是打字吗。但提示词的质量,直接决定了 AI 输出的质量。你跟一个人说「帮我想个方案」,他会反问你什么方案、给谁看、有什么限制。你跟 AI 这么说,它会给你一个看起来很漂亮但完全不搭边的东西。
好提示词的核心不是「更复杂」,是更具体。你把条件、背景、输出格式说清楚了,AI 的发挥空间反而更大。这跟很多人一开始想的是反的,不是给 AI 更大的自由它就更厉害,是你给的边界越清楚,它在边界里面的表现越好。
12系统提示词
系统提示词,是提示词的一个特殊品种。你在 ChatGPT 的 Custom Instructions、Claude 的项目指令里写的,就是它。
它跟普通提示词的区别是,普通提示词是每次问的时候写,系统提示词是你写在设置里的。它在你每一次对话、每一个问题里都生效。
比如说,你是一个律师,你可以在系统提示词里写「我是个执业律师,所有回答请用法律文书的严谨度来写,不确定的地方请直接告诉我你不确定」。以后你问任何问题,AI 默认就是这个调性。
系统提示词是被严重低估的工具,大部分人又懒得去设置一遍。我的建议是花十分钟写一段属于自己的系统提示词。花这十分钟,后面跟 AI 的每一次对话都受益。
13温度
温度这个翻译挺有意思的。英文就叫 Temperature,中文直接直译了。
它控制的是 AI 输出是稳还是野。温度低,模型倾向于选概率最高的词,输出稳定但容易 boring。温度高,模型会去选那些概率没那么高但更有趣的词,输出有惊喜但也更容易胡说八道。
如果你让 AI 帮你写代码、整理合同、分析数据,温度调低,0 到 0.3。你不需要惊喜,你需要准确。如果是头脑风暴、写广告文案、起名字,温度调高,0.6 到 0.9。你需要的就是意料之外的东西。
其实不少 AI 产品都能调温度,只是很多人没注意到。去看看设置里有没有,一般在参数或高级选项里。
14思维链
思维链是我觉得最反直觉的一个功能。
做法特别简单。你问 AI 问题的时候,加一句,「一步一步来,把你的推理过程写出来」。就这一句话,准确率能往上跳一大截。
为什么。因为 AI 不是真的在思考。它是逐字预测。当你让它直接给答案,它是根据概率「跳」到一个结论。这个跳跃过程里,中间推理步骤是跳过的。思维链是逼它别跳,一步一步走起来。每一步的计算结果变成下一步的输入,容错率高了很多。
这也是为什么你看到 DeepSeek R1 和 Claude 有时候会「自言自语」,它不是在卖萌,是在做思维链。准确率的秘密就在这段时间里。
15AI 幻觉
AI 幻觉,就是模型一本正经地胡说八道。
你去问它「2025 年诺贝尔物理学奖得主是谁」,它给你一个名字、一段获奖理由、甚至一段颁奖词。全部合理,全部不存在的。因为模型的核心能力是预测下一个词,不是查数据库。它面对一个它不知道的事实,不会说「我不知道」,它会编一个看起来最像答案的答案。
幻觉是现阶段所有大语言模型的固有缺陷,不是 Bug,是设计特性。能做的事情是降低幻觉概率,RAG、思维链、好的提示词设计,但不能根除。
所以跟 AI 协作有一条原则。涉及事实的,你必须有办法自己验证。它给你一个引用,你去点开原文。它给你一个数据,你去查来源。AI 是你的队友,不是你雇来的专家。
16多模态
多模态,就是 AI 不再只看文字了,它能同时处理图片、声音、视频。
ChatGPT 刚出来的时候只能打字。后来可以上传图片了,你拍一张冰箱里的食材,它能给你推荐菜单。再后来有了语音模式,你可以跟它像打电话一样聊天。最新的进展是视频理解和实时画面分析。
模态越多,AI 就越能用你习惯的方式跟你交流,直接看照片、听语音,不用再费力打一堆字。照片直接扔过去,声音直接说,视频直接放。
多模态是我觉得非常值得关注的方向。它带来的变化不是「AI 又多了个功能」这种量级的,而是你开始用最自然的方式跟 AI 交互,不用再适应它的输入格式了。
17微调
微调,就是在一个大模型的基础上,用你自己的数据再训练一小轮。
为啥不从头训练一个。太贵了。训练 GPT-4 级别的模型一次要花几千万美元。微调便宜得多,可能几百到几千美元就能让模型在你自己的领域显著变好。
举个例子。你开了一家律师事务所,有十几年的判例积累。你用这批数据对模型做微调之后,它在法律问题上的表现会远超通用版。因为它的参数被你的数据「掰」过了一点点。
微调的门槛在持续降低。以前需要深厚的机器学习背景,现在像 OpenAI 的平台,你准备好数据点几下就开始了。AI 正在从只能「用别人的」变成你可以「养自己的」。
三楼到这。七个词,一个核心,你怎么从被动的「我用 AI」变成主动的「AI 适应我」。提示词是你的沟通语言,温度是你的风格调节,思维链是你的思考搭档,微调是你的私人定制。
再上一层楼。
四楼 · 让 AI 变成你的系统
前三楼聊的,说到底还是跟一个 AI 模型在互动。你问它答,你设置它调整。但真正让 AI 开始替你干活的,是四楼这四个词。
这一层我聊过很多,写过一整篇文章拆解它们的关系。这里就不再展开了,给你最精要的定义,以及为什么它们值得你在意。
18RAG
RAG,检索增强生成。一句话,让 AI 能回答你私有数据的问题。
没有 RAG 的时候,你对 AI 说「帮我看一下我们公司的年假政策」,它只能瞎编。因为它的训练数据里没有你们公司的员工手册。有了 RAG,你先把员工手册放进知识库,AI 回答之前先去检索相关内容,读完了再回答。不是训练数据里的知识,是你给它的上下文。
RAG 跟微调的区别。微调是改变模型的「脑回路」,RAG 是临时给它塞一本参考书。前者需要训练,后者插上就能用。
19Agent
Agent,智能体。从「AI 回答你问题」升级到「AI 帮你做完一件事」。
区别在哪。没有 Agent,你说「帮我把这份合同的问题找出来」,它给你一段分析和建议。然后你自己去开 Word,改条款,发给房东。有 Agent,它会自己读合同、定位问题条款、修改、检查逻辑冲突、保存新版本。如果出错,它能观察结果、自己调整。
Agent 的核心是一个叫 ReAct 的循环,思考、行动、观察、再思考。就像一个有执行能力的助理,你不是告诉它「答案是什么」,而是告诉它「事情是什么」,它自己想办法完成。
20MCP
MCP,模型上下文协议。Anthropic 在 2024 年 11 月推出的开放标准。核心是做一件事,让所有工具用同一种方式接入 AI。
没有 MCP 之前,你想让 AI 查数据库,写一套代码。想让它读文件系统,再写一套。想让它发邮件,又一套。有了 MCP,工具接入变成即插即用。像一个 USB-C 集线器,插上去就能认。
MCP 解决的不是 AI 本身的问题,是它周围生态的问题。接口统一了,你花在胶水代码上的时间归零了。
21Skill
Skill,技能。你反复验证过的协作模式,固化下来,AI 以后不用每次重新教。
不是 prompt 模板。prompt 模板是你每次复制粘贴。Skill 是这个模式焊进了 AI 的工作方式里。你不需要每次喊 action,它自动按你验证过的那套方法论走。
prompt 模板省的是打字时间,Skill 省的是认知负荷。我自己的四步 Bug 排查流程,只读分析、定位根因、给方案、评估风险,做成 Skill 写在 Claude Code 里之后,说一句「帮我修这个 Bug」就够了。不用提醒,不用复制,不用每次解释。
下楼了
四层楼,21 个词。从头走到尾,大概就是从「AI 好厉害但我不太懂」到「原来每个词解决的都是一个具体问题」的过程。
一楼是认清它的身份。人工智能,机器学习,深度学习,生成式 AI。不是四个并列的概念,是四个套在一起的圈。
二楼是搞懂它怎么干活。LLM,参数,Token,上下文窗口,推理速度,Embedding。你花的钱、等的秒、它突然忘了你在说什么,背后都是这些词在起作用。
三楼是怎么驾驭它。提示词、系统提示词、温度、思维链、幻觉、多模态、微调。这一层是你每天都能提升 AI 输出质量的地方,不需要学编程,需要的是一点时间去理解每个词控制的是什么。
四楼是让它变成系统。RAG、Agent、MCP、Skill。最后一个词讲完,你已经在让 AI 替你干活了,不只是陪你聊天。
说真的,你不用把这些词背下来。你只需要在碰到一个词的时候,脑子里有一层楼,知道它大概在哪。剩下的,用的时候再查就行。
AI 不是一个需要你一次性学会的东西。它是一个你每天都在用的东西。用着用着,就懂了。这也是我写这篇文章的目的,不是让你背下来,是让你下次看到这些词的时候起码不懵。
夜雨聆风