
来源 | 捡田螺的小男孩(ID:gh_51e0e901a289)
前言
大家好,我是田螺。
最近AI一些关键词刷屏啦。无论群里、文档里、技术文章里,突然全是 AI相关词汇。Token、SKILLS、Embedding、RAG、LoRA、MoE……每个词都认识,放一起不知道在说什么。
本文田螺哥帮大家过一遍,每个词尽量一两句话说清楚。
全景图
🔹 Lv1 零基础 先跑起来——知道 AI 这玩意儿是啥
🔹 Lv2 入门 学会"指挥"AI——别让它敷衍你
🔹 Lv3 入门+ 理解模型怎么运转——知道它为啥会胡说八道
🔹 Lv4 中级 把 AI 嵌进项目里——当后端模块来用
🔹 Lv5 进阶 自己动手调——微调、量化、蒸馏
🔹 Lv6 开发者 上生产环境——部署、跑起来
🔹 Lv7 专家 底层原理——真去读论文的话这些是前置知识
Lv 1 · 零基础 | 先用起来
① AI
别被这个词唬住。目前在程序员的语境里,AI 基本就等于大模型或者深度学习那一套,跟以前的 if-else 专家系统完全两码事。你现在用 Copilot 补全代码、用 ChatGPT 查文档——这些背后都是同一类技术。
② 大语言模型(LLM)
就是你天天用的 GPT、Claude、DeepSeek 的正式称呼。本质上是一个超大的猜下一个字函数:给它上文,它算每个候选字的概率,挑一个,然后继续猜下一个。之所以能写代码、写文章、做翻译,全是「猜字」这个简单任务被放大到几千亿参数之后的结果。
③ 提示词(Prompt)
你发给 LLM 的字符串。说白了就是自然语言版的函数入参。参数写得含糊,返回就离谱;参数写得精准,返回就能用。跟写 SQL 差不多——同样的数据库,query 写得好坏天差地别。
④ 多模态
一个模型同时吃文字、图片、音频、视频。比如你给 Claude 扔一张架构图,它能分析你这套系统是微服务还是单体。以前的模型眼睛是眼睛、耳朵是耳朵,多模态等于把五官给统一了。
⑤ AIGC
AI Generated Content 的缩写,AI 生成的所有东西——代码、文档、图片、视频。Copilot 补全的那行代码是** AIGC**,Midjourney 画的图也是 AIGC。你就理解成 AI 的输出。
⑥ Token
LLM 处理文本的最小单位。不是字也不是词,介于两者之间。英文一个单词大约 1.3 个 token,中文一个字大约 2 个 token。API 计费按 token 算,输入便宜输出贵。 你就当它是 AI 世界里的 byte——所有计量都围着它转。
⑦ 上下文窗口(Context Window)
模型一次最多能看多少个 token。GPT-4 的 128K 大概能装下整本《三体》第一册。超过窗口的内容会被截断或者遗忘。跟 Redis 的 maxmemory 一个道理——满了就淘汰旧的。
Lv 2 · 入门 | 学会指挥 AI(9 词)
① 系统提示(System Prompt)
用户看不到,但全程生效的人设提示。你在代码里初始化 AI 客户端时塞进去的那段话:你是一个后端工程师,回答优先给代码示例。相当于环境变量——设一次,后面所有调用都带着。
② 温度(Temperature)
控制输出有多「放飞」的参数。代码 / JSON 生成 → 温度拉低(接近 0),每次输出稳定;写文案 / 起名字 → 温度拉高,结果更有花样。如果你用过 softmax,温度就是 softmax 里的 T——T 越大概率分布越均匀,输出越随机。
③ 思维链(CoT / Chain of Thought)
Prompt 里加一句话:一步步想,先写推理过程,再给答案。效果相当于你 debug 时打 console.log——让模型把中间推理暴露出来,准确率能高一截。复杂任务不加 CoT 基本等于让同事不看代码直接猜 bug 在哪。
④ 结构化输出(Structured Output)
强制 LLM 返回合法 JSON,不是希望它返回 JSON。OpenAI 和 Anthropic 现在都原生支持 JSON Schema 约束。你要把 LLM 输出接进 pipeline,这个功能是刚需——要不然 parse 失败够你喝一壶的。
⑤ 函数调用(Function Calling / Tool Use)
LLM 不会自己执行代码,但它能「说」要调哪个函数、传什么参数。你收到这个请求 → 真去执行 → 把结果扔回给模型 → 它总结成自然语言。比如用户问「北京天气」,模型输出 get_weather("Beijing"),你调天气 API,结果扔回去。Agent 就是靠这个机制搭起来的。
⑥ 上下文(Context)
模型在生成每个 token 时实际看到的所有东西:System Prompt + 历史对话 + 当前用户输入 + 工具调用结果。后面讲 RAG 的时候你会明白——RAG 本质上就是在动态拼接 context。
⑦ 角色设定(Role Prompting)
最简单直接的一招:告诉 LLM 「你现在是谁」。You are a senior Go developer. Write idiomatic code. 就这一句话,输出质量能上一个台阶。比你对后端说「请给我写个接口」靠谱得多。
⑧ 流式输出(Streaming)
LLM 一个字一个字往外蹦,不是等全生成完了再整段扔回来。体验上就是 ChatGPT 那种「打字效果」。实现就是 SSE(Server-Sent Events),后端一直推 token 直到 [DONE]。
⑨ 少样本提示(Few-shot Prompting)
Prompt 里塞几个「输入 → 输出」的示例,模型照猫画虎。你想让 LLM 把自然语言转 SQL?先给 3 个例子,效果天上地下。本质上就是我们程序员最熟的 example-driven development。
Lv 3 · 入门+ | 模型怎么运转(9 词)
① 参数(Parameters)
模型里可调节的「旋钮」数量。7B 就是 70 亿个参数,405B 就是 4050 亿个。参数越多 ≈ 模型越强 ≈ 越吃显存。跑一个 7B 模型大概要 14GB 显存(FP16 精度),405B 大概要 810GB——所以你在本地玩的都是小模型。
② 预训练(Pre-training)
让模型在超级大的数据集上「通读」一遍。Llama 3 吃了 15 万亿个 token,训一次几千万美元。训完得到的东西叫 base model——只会续写,不会回答问题,也不会聊天。就像刚毕业的实习生,知识有,但不会跟人交流。
③ 推理(Inference)
模型训练好之后,真正被调用来「干活」的过程。你每次调 API,背后就是一次推理。推理的瓶颈不在计算速度,在显存带宽(HBM)——这也是为什么 GPU 贵,贵的不是芯片本身,是那圈 HBM 显存。
④ 幻觉(Hallucination)
模型一本正经胡说八道。你问「那个叫 xxx 的 npm 包最新版是多少」,它能编一个看起来合理的版本号——但不是真的。这是所有 LLM 的通病,目前只能缓解,根治不了。 RAG(后面会讲)是缓解幻觉最有效的办法。
⑤ 对齐(Alignment)
让 base model 变得「会说人话」「听指挥」「不乱说话」的过程。核心操作叫 RLHF:让人工标注员给模型的回答打分(这个比那个好),然后用这些偏好数据训练模型。对齐是把 base model 变成 ChatGPT 的关键一步。
⑥ 涌现(Emergence)
模型大到一定程度后,突然表现出了训练数据里没明确教过的能力。比如你只让它做文本续写,结果它自己学会了翻译。为什么?没人能完美解释——这是目前 AI 研究里最玄学的部分。
⑦ 混合专家(MoE)
省算力的模型架构。模型参数总量很大(比如 671B),但每次推理只激活一小撮(比如 37B)。DeepSeek-V3 就用这个套路——总参数量对标 GPT-4,但每次只跑 5% 的参数,所以成本低很多。就像大公司,不是全员开会,哪个部门的事叫哪个部门。
⑧ Transformer
2017 年 Google 发的论文里的架构,现在所有主流 LLM 的底座。论文标题叫《Attention Is All You Need》——狂到把核心卖点写在标题里了。两个核心组件:自注意力层(Self-Attention)看上下文关系,前馈网络(FFN)做非线性变换。后面 Lv7 会拆开讲。
⑨ 注意力机制(Attention)
Transformer 的灵魂。模型拿到一段文本,不是平等对待每个字——它会自动判断哪些字重要、哪些字之间有关系。比如「我不喜欢这个电影」,「不」这个字会被赋予很高的注意力权重,因为它翻转了整个句子的意思。复杂度 O(n²),所以长上下文吃算力吃到哭。
Lv 4 · 中级 | 把 AI 当模块用(9 词)
① AI API
就是 LLM 服务商提供的 HTTP 接口。OpenAI 的 /v1/chat/completions 基本是行业事实标准——几乎所有开源 serving 框架(vLLM、Ollama)都兼容这个格式。调它跟调 Stripe、调 Twilio 没区别,POST 一个 JSON 过去,收一个 JSON 回来。
② Agent
给 LLM 装上「手脚」。Agent = LLM + 工具调用 + 循环。你给它一个目标(「帮我查一下竞品最近的更新」),它自己拆步骤、调搜索工具、读网页、总结。实现上就是一个 while 循环:模型输出 action → 你执行 → 结果塞回 context → 模型再判断是继续还是结束。
③ RAG(检索增强生成)
目前企业落地最主流的方案。 流程:把你的文档切成块 → 每块算一个向量(embedding)→ 存进向量库 → 用户提问时搜出最相关的几块 → 拼到 prompt 里 → 让 LLM 基于这些材料回答。不微调模型也能让 AI 「懂」你的业务知识。缺点:检索质量决定了答案上限——搜不准,后面全白搭。
④ 嵌入(Embedding)
把一个文本块映射成一个高维向量(一长串 float)。语义近的文本,向量距离就近。「用户怎么登录」和「怎样注册账号」在向量空间里挨着,但跟「怎么退款」离得远。做 RAG 第一步就是把所有文档向量化。现在最常用的:OpenAI 的 text-embedding-3-small(便宜)和 BGE-M3(开源)。
⑤ 向量数据库(Vector DB)
专门做「给一个向量,找最相似的 N 个向量」的数据库。存的是 embedding 向量 + 元数据 + 原文。核心操作是 ANN(近似最近邻搜索)——精确搜太慢,大家都用近似。主流选型:Pinecone(省心但有 vendor lock-in)、Milvus(开源顶配但运维重)、pgvector(PostgreSQL 插件,省事党的最爱)。
⑥ MCP(模型上下文协议)
Anthropic 推的一个开放协议,定义 LLM 和外部工具之间的标准交互。你可以理解成 AI 界的 USB-C——只要你的工具实现了 MCP Server,任何支持 MCP 的 AI 客户端都能直接插上用。Claude Desktop、Cursor 都已经支持了。
⑦ 提示工程(Prompt Engineering)
系统性地研究「怎么写 prompt 才能让 LLM 输出最好的结果」。不是玄学,有方法论:Few-shot、CoT、角色设定、结构化约束、反向验证。已经有公司在招专门的 Prompt Engineer,这就是程序员的新技能树分支。
⑧ Vibe Coding
Andrej Karpathy(前 OpenAI 联合创始人)造的词。就是:你动嘴,AI 动手。把需求用自然语言告诉 AI,AI 直接出代码,你负责 review 和合并。配合 Cursor 或者 Claude Code 用——说需求、看方案、按 Tab、往上推。争议很大,但生产力确实炸裂。
⑨ 工作流(AI Workflow)
把多个 LLM 调用 + 工具调用串成一条流水线。比如:用户提问 → 意图识别 LLM → 路由到不同 handler → 各自调 RAG / 搜索 / 数据库 → 汇总 LLM 生成最终答案。这类东西可以用 Dify、Coze 拖拽搭建,也可以自己写。本质上就是一个 DAG 执行引擎。
Lv 5 · 进阶 | 自己动手调模型(9 词)
① 微调(Fine-tuning)
拿别人训好的开源模型,用自己的数据再训练一轮。比如拿 Llama 3.1 8B,喂几千条你公司的客服对话,出来一个专属客服模型。微调改的是模型权重,RAG 改的是输入——这俩不冲突,可以一起上。
② LoRA / QLoRA
微调的省钱方案。不碰原模型全部参数,只训练一小组「附加矩阵」,训完再合并回去。QLoRA 还把这组附加矩阵量化到了 4-bit。结果就是:一张 RTX 4090(24GB 显存)就能微调 7B 模型——两年前这得 8 张 A100。
③ 量化(Quantization)
把模型参数从 FP16/FP32 压到 INT8/INT4,缩小体积、省显存。FP16 → INT4 体积直接砍到四分之一,推理速度甚至更快(因为瓶颈本来就在内存带宽)。llama.cpp 出的 GGUF 格式就是量化的,Q4_K_M 是本地跑模型的甜点配置。
④ 蒸馏(Distillation)
让一个大模型(老师)的输出,去训练一个小模型(学生)。不是直接压缩参数,而是让小学霸照着大学霸的作业学。DeepSeek-R1 的很多能力就是从更大的模型蒸馏过来的。低成本搞到强模型的一条捷径。
⑤ 评估基准(Benchmark)
社区公认的「考卷」:MMLU 考综合知识,HumanEval 考写代码,MATH 考数学推理,GSM8K 考小学数学应用题。厂商说「我们超越了 GPT-4」一般都是某几个基准分数更高。但分数高不代表你实际用着好——用你自己的业务数据测最靠谱。
⑥ 推理优化(Inference Optimization)
让模型跑得更快更省的一套技术全家桶。三个核心:KV Cache(已算过的 attention 结果缓存起来别重复算)、Continuous Batching(动态攒批,提高 GPU 利用率)、Flash Attention(优化 attention 计算时的显存访问模式,减少 HBM 读写)。vLLM 把这三样都打包好了。
⑦ RAG 管道(RAG Pipeline)
RAG 落地的工程全流程:文档解析 → 切块(多大一块?有没有重叠?)→ embedding → 向量存储 → 检索 → 重排序(rerank,对初筛结果再精选)→ 拼 prompt → LLM 生成。每一步都影响最终答案质量,没有银弹,只能根据自己的数据慢慢调。
⑧ LLM 应用框架
帮你搭 LLM 应用的轮子。LangChain 是老大哥,啥都有但封装太厚——出了问题不好查;LlamaIndex 做 RAG 更顺手;Haystack 管道控制灵活。趋势是越来越轻——很多人直接用 OpenAI SDK 加几行胶水代码完事。
⑨ 语义搜索(Semantic Search)
不是关键词匹配,是「理解你想找什么」。用户搜「怎么让接口跑快点」,不只看标题带「接口」「快」的文档,还能找到讲缓存、索引优化的内容——因为向量在语义空间里挨得近。RAG 的检索环节就是语义搜索。
Lv 6 · 开发者 | 上生产环境(9 词)
① Hugging Face
AI 界的 GitHub。 几十万个模型、数据集和 demo 托管在上面。transformers 这个 pip 包是 NLP 的行业标配,地位跟 React/Express 在自己生态里差不多。日常对话:「去 HF 上拉个模型试试」=「去 npm 上装个包试试」。
② 开源模型生态
主流开源 LLM:Meta 的 Llama(Llama 3.1 405B 是开源天花板)、阿里的 Qwen(中文最强,代码能力也很顶)、深度求索的 DeepSeek(MoE 架构,性价比炸裂)、Mistral(欧洲之光)。选基座模型的逻辑跟选框架一样——社区大、文档好、有人持续维护的优先。
③ Ollama / llama.cpp
本地跑 LLM 的东西。llama.cpp 是纯 C/C++ 写的推理引擎,模型甚至能跑在 CPU 上;Ollama 把它包了一层,ollama run llama3.1 一条命令起服务。开发调试阶段必备——你总不想每次改个 prompt 都去调付费 API。
④ GPU / CUDA
AI 算力的物理基础。跑 LLM 得用 GPU,目前只有 NVIDIA 的 GPU 原生支持 CUDA(NVIDIA 的并行计算平台)。AMD 有 ROCm 但生态差远了。所以你看到的 AI 公司采购清单上全是 NVIDIA——这就是为什么它市值冲到三万亿。
⑤ 模型服务框架(Model Serving)
把 LLM 封装成 HTTP API 的框架。vLLM 是性能卷王——PagedAttention 专利技术,吞吐量一骑绝尘;TGI 是 HuggingFace 官方出的,生态集成好;Ollama 最简单,单机开发够用。选型看你要极限性能还是省事。
⑥ AI 服务架构
一个典型 AI 应用后端长这样:前端 → API Gateway → 业务逻辑 → LLM Service + Vector DB + Redis + 传统 DB。LLM 调用是延迟最不可控的一环(2 秒到 30 秒都有可能),所以架构上必须异步 + 流式返回 + 超时重试,不能同步等。
⑦ 扩散模型(Diffusion Model)
AI 画图和视频生成背后的技术,跟 LLM 是完全不同的路线。核心思路:给图片逐步加噪声直到一团糟,然后训练模型学会一步步去噪还原。Stable Diffusion、Midjourney、Sora 全是扩散模型。
⑧ 算力(Compute)
AI 时代的「石油」。GPU 数量 × 显存大小 × 互联带宽。训 GPT-4 级别的大模型成本够北京买几十套房。单位是 FLOPs(浮点运算次数),日常对话里张嘴就是 PFLOPs(千万亿次)起步。
⑨ 数据管道(Data Pipeline)
训模型之前洗数据的流程:采集 → 清洗 → 去重 → 质量过滤 → 格式化。数据的质量比模型架构重要得多——垃圾数据进去,再牛的架构也救不回来。这也是为什么各家 AI 产品拼到最后都在拼数据飞轮:用户越多数据越多数据越多模型越好模型越好用户越多。
Lv 7 · 专家 | 真去读论文的前置知识(8 词)
① 神经网络
AI 的基本计算结构。一堆「神经元」层层堆叠,每个神经元做一件简单的事:激活函数(输入×权重 + 偏置)。单个神经元就是逻辑回归,但几十亿个堆一起就不是那回事了。
② 反向传播(Backprop)
训练网络的核心算法。模型做预测 → 算误差(loss)→ 从输出层往回传梯度 → 每层用梯度更新参数。循环几十亿次。GPU 跑得最多的就是这玩意儿。
③ 梯度下降(Gradient Descent)
顺着最陡的方向一步步走到误差最小。类比:蒙眼下山,每步都踩最陡的方向。变体有 SGD、Adam、AdamW——训 LLM 标配是 AdamW。
④ 损失函数(Loss Function)
一个公式,把「模型答得有多烂」算成一个数值。LLM 用交叉熵损失(Cross-Entropy Loss):模型预测的下一个 token 概率分布 vs 真实 token,差距越大 loss 越大。loss 在降 = 模型在学。
⑤ 张量(Tensor)
多维数组。PyTorch 里 torch.Tensor 就是它。0 维 = 标量,1 维 = 向量,2 维 = 矩阵,3 维+ = 张量。神经网络的运算本质就是张量运算,矩阵乘法是核心——这也是 GPU 适合做 AI 的根本原因,它天生就会并行算矩阵。
⑥ 激活函数(Activation Function)
给神经网络引入非线性的函数。没有它,不管堆多少层,本质上都是线性变换——跟逻辑回归拉不开差距。LLM 里常用的:ReLU(简单粗暴)、GELU(Transformer 的 FFN 层)、SwiGLU(新一代标配)。
⑦ 强化学习(RL)
训练 AI 的第三种范式(另外两个是监督学习和无监督学习)。AI 在环境里做动作 → 环境给奖励/惩罚 → AI 调整策略最大化奖励。LLM 的 RLHF 就是把「人类偏好」当奖励信号来对齐模型。
⑧ AGI(通用人工智能)
一个能把任何智力任务都干到人类水平的 AI——写代码、做手术、写剧本、搞科研,全是一套大脑。还没实现。但 2026 年大部分从业者的共识是:沿着 LLM 这条路走下去,大概率到 AGI。什么时候?有人赌 3 年,有人赌 30 年。
怎么用这张表
记住一句话:你不会一次性学完 60 个词,也不用。最快的路径是——申请个 API key,先调通第一条请求,过程中碰到不懂的词回来 Ctrl+F。用着用着就懂了。
END
推荐阅读:
夜雨聆风