程序员必备:60 个 AI 核心关键词,一网打尽

将 脚本之家 设为“星标⭐”第一时间收到文章更新

来源 | 捡田螺的小男孩（ID：gh_51e0e901a289）

前言

大家好，我是田螺。

最近AI一些关键词刷屏啦。无论群里、文档里、技术文章里，突然全是 AI相关词汇。Token、SKILLS、Embedding、RAG、LoRA、MoE……每个词都认识，放一起不知道在说什么。

本文田螺哥帮大家过一遍，每个词尽量一两句话说清楚。

全景图

🔹 Lv1 零基础先跑起来——知道 AI 这玩意儿是啥

🔹 Lv2 入门学会"指挥"AI——别让它敷衍你

🔹 Lv3 入门+ 理解模型怎么运转——知道它为啥会胡说八道

🔹 Lv4 中级把 AI 嵌进项目里——当后端模块来用

🔹 Lv5 进阶自己动手调——微调、量化、蒸馏

🔹 Lv6 开发者上生产环境——部署、跑起来

🔹 Lv7 专家底层原理——真去读论文的话这些是前置知识

Lv 1 · 零基础｜先用起来

① AI

别被这个词唬住。目前在程序员的语境里，AI 基本就等于大模型或者深度学习那一套，跟以前的 if-else 专家系统完全两码事。你现在用 Copilot 补全代码、用 ChatGPT 查文档——这些背后都是同一类技术。

② 大语言模型（LLM）

就是你天天用的 GPT、Claude、DeepSeek 的正式称呼。本质上是一个超大的猜下一个字函数：给它上文，它算每个候选字的概率，挑一个，然后继续猜下一个。之所以能写代码、写文章、做翻译，全是「猜字」这个简单任务被放大到几千亿参数之后的结果。

③ 提示词（Prompt）

你发给 LLM 的字符串。说白了就是自然语言版的函数入参。参数写得含糊，返回就离谱；参数写得精准，返回就能用。跟写 SQL 差不多——同样的数据库，query 写得好坏天差地别。

④ 多模态

一个模型同时吃文字、图片、音频、视频。比如你给 Claude 扔一张架构图，它能分析你这套系统是微服务还是单体。以前的模型眼睛是眼睛、耳朵是耳朵，多模态等于把五官给统一了。

⑤ AIGC

AI Generated Content 的缩写，AI 生成的所有东西——代码、文档、图片、视频。Copilot 补全的那行代码是** AIGC**，Midjourney 画的图也是 AIGC。你就理解成 AI 的输出。

⑥ Token

LLM 处理文本的最小单位。不是字也不是词，介于两者之间。英文一个单词大约 1.3 个 token，中文一个字大约 2 个 token。API 计费按 token 算，输入便宜输出贵。 你就当它是 AI 世界里的 byte——所有计量都围着它转。

⑦ 上下文窗口（Context Window）

模型一次最多能看多少个 token。GPT-4 的 128K 大概能装下整本《三体》第一册。超过窗口的内容会被截断或者遗忘。跟 Redis 的 maxmemory 一个道理——满了就淘汰旧的。

Lv 2 · 入门｜学会指挥 AI（9 词）

① 系统提示（System Prompt）

用户看不到，但全程生效的人设提示。你在代码里初始化 AI 客户端时塞进去的那段话：你是一个后端工程师，回答优先给代码示例。相当于环境变量——设一次，后面所有调用都带着。

② 温度（Temperature）

控制输出有多「放飞」的参数。代码 / JSON 生成 → 温度拉低（接近 0），每次输出稳定；写文案 / 起名字 → 温度拉高，结果更有花样。如果你用过 softmax，温度就是 softmax 里的 T——T 越大概率分布越均匀，输出越随机。

③ 思维链（CoT / Chain of Thought）

Prompt 里加一句话：一步步想，先写推理过程，再给答案。效果相当于你 debug 时打 console.log——让模型把中间推理暴露出来，准确率能高一截。复杂任务不加 CoT 基本等于让同事不看代码直接猜 bug 在哪。

④ 结构化输出（Structured Output）

强制 LLM 返回合法 JSON，不是希望它返回 JSON。OpenAI 和 Anthropic 现在都原生支持 JSON Schema 约束。你要把 LLM 输出接进 pipeline，这个功能是刚需——要不然 parse 失败够你喝一壶的。

⑤ 函数调用（Function Calling / Tool Use）

LLM 不会自己执行代码，但它能「说」要调哪个函数、传什么参数。你收到这个请求 → 真去执行 → 把结果扔回给模型 → 它总结成自然语言。比如用户问「北京天气」，模型输出 get_weather("Beijing")，你调天气 API，结果扔回去。Agent 就是靠这个机制搭起来的。

⑥ 上下文（Context）

模型在生成每个 token 时实际看到的所有东西：System Prompt + 历史对话 + 当前用户输入 + 工具调用结果。后面讲 RAG 的时候你会明白——RAG 本质上就是在动态拼接 context。

⑦ 角色设定（Role Prompting）

最简单直接的一招：告诉 LLM 「你现在是谁」。You are a senior Go developer. Write idiomatic code. 就这一句话，输出质量能上一个台阶。比你对后端说「请给我写个接口」靠谱得多。

⑧ 流式输出（Streaming）

LLM 一个字一个字往外蹦，不是等全生成完了再整段扔回来。体验上就是 ChatGPT 那种「打字效果」。实现就是 SSE（Server-Sent Events），后端一直推 token 直到 [DONE]。

⑨ 少样本提示（Few-shot Prompting）

Prompt 里塞几个「输入 → 输出」的示例，模型照猫画虎。你想让 LLM 把自然语言转 SQL？先给 3 个例子，效果天上地下。本质上就是我们程序员最熟的 example-driven development。

Lv 3 · 入门+ ｜模型怎么运转（9 词）

① 参数（Parameters）

模型里可调节的「旋钮」数量。7B 就是 70 亿个参数，405B 就是 4050 亿个。参数越多 ≈ 模型越强 ≈ 越吃显存。跑一个 7B 模型大概要 14GB 显存（FP16 精度），405B 大概要 810GB——所以你在本地玩的都是小模型。

② 预训练（Pre-training）

让模型在超级大的数据集上「通读」一遍。Llama 3 吃了 15 万亿个 token，训一次几千万美元。训完得到的东西叫 base model——只会续写，不会回答问题，也不会聊天。就像刚毕业的实习生，知识有，但不会跟人交流。

③ 推理（Inference）

模型训练好之后，真正被调用来「干活」的过程。你每次调 API，背后就是一次推理。推理的瓶颈不在计算速度，在显存带宽（HBM）——这也是为什么 GPU 贵，贵的不是芯片本身，是那圈 HBM 显存。

④ 幻觉（Hallucination）

模型一本正经胡说八道。你问「那个叫 xxx 的 npm 包最新版是多少」，它能编一个看起来合理的版本号——但不是真的。这是所有 LLM 的通病，目前只能缓解，根治不了。 RAG（后面会讲）是缓解幻觉最有效的办法。

⑤ 对齐（Alignment）

让 base model 变得「会说人话」「听指挥」「不乱说话」的过程。核心操作叫 RLHF：让人工标注员给模型的回答打分（这个比那个好），然后用这些偏好数据训练模型。对齐是把 base model 变成 ChatGPT 的关键一步。

⑥ 涌现（Emergence）

模型大到一定程度后，突然表现出了训练数据里没明确教过的能力。比如你只让它做文本续写，结果它自己学会了翻译。为什么？没人能完美解释——这是目前 AI 研究里最玄学的部分。

⑦ 混合专家（MoE）

省算力的模型架构。模型参数总量很大（比如 671B），但每次推理只激活一小撮（比如 37B）。DeepSeek-V3 就用这个套路——总参数量对标 GPT-4，但每次只跑 5% 的参数，所以成本低很多。就像大公司，不是全员开会，哪个部门的事叫哪个部门。

⑧ Transformer

2017 年 Google 发的论文里的架构，现在所有主流 LLM 的底座。论文标题叫《Attention Is All You Need》——狂到把核心卖点写在标题里了。两个核心组件：自注意力层（Self-Attention）看上下文关系，前馈网络（FFN）做非线性变换。后面 Lv7 会拆开讲。

⑨ 注意力机制（Attention）

Transformer 的灵魂。模型拿到一段文本，不是平等对待每个字——它会自动判断哪些字重要、哪些字之间有关系。比如「我不喜欢这个电影」，「不」这个字会被赋予很高的注意力权重，因为它翻转了整个句子的意思。复杂度 O(n²)，所以长上下文吃算力吃到哭。

Lv 4 · 中级｜把 AI 当模块用（9 词）

① AI API

就是 LLM 服务商提供的 HTTP 接口。OpenAI 的 /v1/chat/completions 基本是行业事实标准——几乎所有开源 serving 框架（vLLM、Ollama）都兼容这个格式。调它跟调 Stripe、调 Twilio 没区别，POST 一个 JSON 过去，收一个 JSON 回来。

② Agent

给 LLM 装上「手脚」。Agent = LLM + 工具调用 + 循环。你给它一个目标（「帮我查一下竞品最近的更新」），它自己拆步骤、调搜索工具、读网页、总结。实现上就是一个 while 循环：模型输出 action → 你执行 → 结果塞回 context → 模型再判断是继续还是结束。

③ RAG（检索增强生成）

目前企业落地最主流的方案。 流程：把你的文档切成块 → 每块算一个向量（embedding）→ 存进向量库 → 用户提问时搜出最相关的几块 → 拼到 prompt 里 → 让 LLM 基于这些材料回答。不微调模型也能让 AI 「懂」你的业务知识。缺点：检索质量决定了答案上限——搜不准，后面全白搭。

④ 嵌入（Embedding）

把一个文本块映射成一个高维向量（一长串 float）。语义近的文本，向量距离就近。「用户怎么登录」和「怎样注册账号」在向量空间里挨着，但跟「怎么退款」离得远。做 RAG 第一步就是把所有文档向量化。现在最常用的：OpenAI 的 text-embedding-3-small（便宜）和 BGE-M3（开源）。

⑤ 向量数据库（Vector DB）

专门做「给一个向量，找最相似的 N 个向量」的数据库。存的是 embedding 向量 + 元数据 + 原文。核心操作是 ANN（近似最近邻搜索）——精确搜太慢，大家都用近似。主流选型：Pinecone（省心但有 vendor lock-in）、Milvus（开源顶配但运维重）、pgvector（PostgreSQL 插件，省事党的最爱）。

⑥ MCP（模型上下文协议）

Anthropic 推的一个开放协议，定义 LLM 和外部工具之间的标准交互。你可以理解成 AI 界的 USB-C——只要你的工具实现了 MCP Server，任何支持 MCP 的 AI 客户端都能直接插上用。Claude Desktop、Cursor 都已经支持了。

⑦ 提示工程（Prompt Engineering）

系统性地研究「怎么写 prompt 才能让 LLM 输出最好的结果」。不是玄学，有方法论：Few-shot、CoT、角色设定、结构化约束、反向验证。已经有公司在招专门的 Prompt Engineer，这就是程序员的新技能树分支。

⑧ Vibe Coding

Andrej Karpathy（前 OpenAI 联合创始人）造的词。就是：你动嘴，AI 动手。把需求用自然语言告诉 AI，AI 直接出代码，你负责 review 和合并。配合 Cursor 或者 Claude Code 用——说需求、看方案、按 Tab、往上推。争议很大，但生产力确实炸裂。

⑨ 工作流（AI Workflow）

把多个 LLM 调用 + 工具调用串成一条流水线。比如：用户提问 → 意图识别 LLM → 路由到不同 handler → 各自调 RAG / 搜索 / 数据库 → 汇总 LLM 生成最终答案。这类东西可以用 Dify、Coze 拖拽搭建，也可以自己写。本质上就是一个 DAG 执行引擎。

Lv 5 · 进阶｜自己动手调模型（9 词）

① 微调（Fine-tuning）

拿别人训好的开源模型，用自己的数据再训练一轮。比如拿 Llama 3.1 8B，喂几千条你公司的客服对话，出来一个专属客服模型。微调改的是模型权重，RAG 改的是输入——这俩不冲突，可以一起上。

② LoRA / QLoRA

微调的省钱方案。不碰原模型全部参数，只训练一小组「附加矩阵」，训完再合并回去。QLoRA 还把这组附加矩阵量化到了 4-bit。结果就是：一张 RTX 4090（24GB 显存）就能微调 7B 模型——两年前这得 8 张 A100。

③ 量化（Quantization）

把模型参数从 FP16/FP32 压到 INT8/INT4，缩小体积、省显存。FP16 → INT4 体积直接砍到四分之一，推理速度甚至更快（因为瓶颈本来就在内存带宽）。llama.cpp 出的 GGUF 格式就是量化的，Q4_K_M 是本地跑模型的甜点配置。

④ 蒸馏（Distillation）

让一个大模型（老师）的输出，去训练一个小模型（学生）。不是直接压缩参数，而是让小学霸照着大学霸的作业学。DeepSeek-R1 的很多能力就是从更大的模型蒸馏过来的。低成本搞到强模型的一条捷径。

⑤ 评估基准（Benchmark）

社区公认的「考卷」：MMLU 考综合知识，HumanEval 考写代码，MATH 考数学推理，GSM8K 考小学数学应用题。厂商说「我们超越了 GPT-4」一般都是某几个基准分数更高。但分数高不代表你实际用着好——用你自己的业务数据测最靠谱。

⑥ 推理优化（Inference Optimization）

让模型跑得更快更省的一套技术全家桶。三个核心：KV Cache（已算过的 attention 结果缓存起来别重复算）、Continuous Batching（动态攒批，提高 GPU 利用率）、Flash Attention（优化 attention 计算时的显存访问模式，减少 HBM 读写）。vLLM 把这三样都打包好了。

⑦ RAG 管道（RAG Pipeline）

RAG 落地的工程全流程：文档解析 → 切块（多大一块？有没有重叠？）→ embedding → 向量存储 → 检索 → 重排序（rerank，对初筛结果再精选）→ 拼 prompt → LLM 生成。每一步都影响最终答案质量，没有银弹，只能根据自己的数据慢慢调。

⑧ LLM 应用框架

帮你搭 LLM 应用的轮子。LangChain 是老大哥，啥都有但封装太厚——出了问题不好查；LlamaIndex 做 RAG 更顺手；Haystack 管道控制灵活。趋势是越来越轻——很多人直接用 OpenAI SDK 加几行胶水代码完事。

⑨ 语义搜索（Semantic Search）

不是关键词匹配，是「理解你想找什么」。用户搜「怎么让接口跑快点」，不只看标题带「接口」「快」的文档，还能找到讲缓存、索引优化的内容——因为向量在语义空间里挨得近。RAG 的检索环节就是语义搜索。

Lv 6 · 开发者｜上生产环境（9 词）

① Hugging Face

AI 界的 GitHub。 几十万个模型、数据集和 demo 托管在上面。transformers 这个 pip 包是 NLP 的行业标配，地位跟 React/Express 在自己生态里差不多。日常对话：「去 HF 上拉个模型试试」=「去 npm 上装个包试试」。

② 开源模型生态

主流开源 LLM：Meta 的 Llama（Llama 3.1 405B 是开源天花板）、阿里的 Qwen（中文最强，代码能力也很顶）、深度求索的 DeepSeek（MoE 架构，性价比炸裂）、Mistral（欧洲之光）。选基座模型的逻辑跟选框架一样——社区大、文档好、有人持续维护的优先。

③ Ollama / llama.cpp

本地跑 LLM 的东西。llama.cpp 是纯 C/C++ 写的推理引擎，模型甚至能跑在 CPU 上；Ollama 把它包了一层，ollama run llama3.1 一条命令起服务。开发调试阶段必备——你总不想每次改个 prompt 都去调付费 API。

④ GPU / CUDA

AI 算力的物理基础。跑 LLM 得用 GPU，目前只有 NVIDIA 的 GPU 原生支持 CUDA（NVIDIA 的并行计算平台）。AMD 有 ROCm 但生态差远了。所以你看到的 AI 公司采购清单上全是 NVIDIA——这就是为什么它市值冲到三万亿。

⑤ 模型服务框架（Model Serving）

把 LLM 封装成 HTTP API 的框架。vLLM 是性能卷王——PagedAttention 专利技术，吞吐量一骑绝尘；TGI 是 HuggingFace 官方出的，生态集成好；Ollama 最简单，单机开发够用。选型看你要极限性能还是省事。

⑥ AI 服务架构

一个典型 AI 应用后端长这样：前端 → API Gateway → 业务逻辑 → LLM Service + Vector DB + Redis + 传统 DB。LLM 调用是延迟最不可控的一环（2 秒到 30 秒都有可能），所以架构上必须异步 + 流式返回 + 超时重试，不能同步等。

⑦ 扩散模型（Diffusion Model）

AI 画图和视频生成背后的技术，跟 LLM 是完全不同的路线。核心思路：给图片逐步加噪声直到一团糟，然后训练模型学会一步步去噪还原。Stable Diffusion、Midjourney、Sora 全是扩散模型。

⑧ 算力（Compute）

AI 时代的「石油」。GPU 数量 × 显存大小 × 互联带宽。训 GPT-4 级别的大模型成本够北京买几十套房。单位是 FLOPs（浮点运算次数），日常对话里张嘴就是 PFLOPs（千万亿次）起步。

⑨ 数据管道（Data Pipeline）

训模型之前洗数据的流程：采集 → 清洗 → 去重 → 质量过滤 → 格式化。数据的质量比模型架构重要得多——垃圾数据进去，再牛的架构也救不回来。这也是为什么各家 AI 产品拼到最后都在拼数据飞轮：用户越多数据越多数据越多模型越好模型越好用户越多。

Lv 7 · 专家｜真去读论文的前置知识（8 词）

① 神经网络

AI 的基本计算结构。一堆「神经元」层层堆叠，每个神经元做一件简单的事：激活函数(输入×权重 + 偏置)。单个神经元就是逻辑回归，但几十亿个堆一起就不是那回事了。

② 反向传播（Backprop）

训练网络的核心算法。模型做预测 → 算误差（loss）→ 从输出层往回传梯度 → 每层用梯度更新参数。循环几十亿次。GPU 跑得最多的就是这玩意儿。

③ 梯度下降（Gradient Descent）

顺着最陡的方向一步步走到误差最小。类比：蒙眼下山，每步都踩最陡的方向。变体有 SGD、Adam、AdamW——训 LLM 标配是 AdamW。

④ 损失函数（Loss Function）

一个公式，把「模型答得有多烂」算成一个数值。LLM 用交叉熵损失（Cross-Entropy Loss）：模型预测的下一个 token 概率分布 vs 真实 token，差距越大 loss 越大。loss 在降 = 模型在学。

⑤ 张量（Tensor）

多维数组。PyTorch 里 torch.Tensor 就是它。0 维 = 标量，1 维 = 向量，2 维 = 矩阵，3 维+ = 张量。神经网络的运算本质就是张量运算，矩阵乘法是核心——这也是 GPU 适合做 AI 的根本原因，它天生就会并行算矩阵。

⑥ 激活函数（Activation Function）

给神经网络引入非线性的函数。没有它，不管堆多少层，本质上都是线性变换——跟逻辑回归拉不开差距。LLM 里常用的：ReLU（简单粗暴）、GELU（Transformer 的 FFN 层）、SwiGLU（新一代标配）。

⑦ 强化学习（RL）

训练 AI 的第三种范式（另外两个是监督学习和无监督学习）。AI 在环境里做动作 → 环境给奖励/惩罚 → AI 调整策略最大化奖励。LLM 的 RLHF 就是把「人类偏好」当奖励信号来对齐模型。

⑧ AGI（通用人工智能）

一个能把任何智力任务都干到人类水平的 AI——写代码、做手术、写剧本、搞科研，全是一套大脑。还没实现。但 2026 年大部分从业者的共识是：沿着 LLM 这条路走下去，大概率到 AGI。什么时候？有人赌 3 年，有人赌 30 年。

怎么用这张表

你的状态	看这个
还没正经用过 AI	Lv 1-2，先把 API key 注册了调通一发再说
已经在项目里接 LLM 了	Lv 3-4，重点看 RAG、Agent、Embedding
想自己微调、部署模型	Lv 5-6，微调 + 量化 + vLLM 三件套
想去读论文	Lv 7 全啃，然后从 Attention Is All You Need 开始

记住一句话：你不会一次性学完 60 个词，也不用。最快的路径是——申请个 API key，先调通第一条请求，过程中碰到不懂的词回来 Ctrl+F。用着用着就懂了。

END
  推荐阅读：

龙虾之父月烧940万元的token！要不是入职OpenAI还真用不起
打算用 Linux 作为日常使用的操作系统，不做开发，哪个版本比较合适？
面试官问我：“AI 写代码比你快 100 倍，你的价值在哪？”
Markdown要被抛弃了？Claude Code工程师自曝：我已彻底放弃使用Markdown！团队倾向使用HTML！网友：其他编辑工具会被淘汰吗？
截胡苹果，安卓要先用上屏下Face ID了

前言

全景图

Lv 1 · 零基础 ｜ 先用起来