【AI】AI大模型术语扫盲

1、LLM（大模型）

LLM = Large Language Model，大语言模型 LLM（大语言模型）：常见的LLM是基于 Transformer 结构、海量文本数据预训练，能理解、生成人类自然语言的模型，代表：GPT 系列、Llama、Qwen 通义千问、文心一言、星火大模型

2、MLLM（多模态大模型）

MLLM = Multimodal Large Language Model ，多模态大语言模型；能处理图片、音频、视频、文本，是所有超大参数量预训练 AI 模型的统称

区别：LLM 只处理文本；MLLM = 文本 + 图像 + 音频 + 视频等多模态输入输出

3、VLM（视觉语言大模型）

VLM = Vision-Language Model 觉语言大模型作用：既能看懂图片，又能理解文字，图文交互问答输入：图片 + 自然语言提问输出：文字答案

4、CLIP（图文对比预训练）

CLIP（Contrastive Language-Image Pre-training） CLIP 是图文配对的尺子，没有 CLIP 就很难实现文生图、看图问答

OpenAI 提出的图文对齐基础模型，VLM 的基石核心目标：把图片、文字映射到同一个向量空间

图片编码器→图片向量
文本编码器→文字向量内容匹配的图文向量靠近，不匹配的远离

用途：

给 VLM 做底座：绝大多数看图大模型用 CLIP 思路做图文对齐；
文搜图 / 图搜文：输入文字找对应图片、上传图片搜相似图；
扩散模型（Diffusion）文生图的文本编码器大多基于 CLIP。

5、Diffusion（扩散模型）

用途：图像生成（文生图、图生图、超分、AI 绘画），「生成型模型」

原理：

正向扩散：干净图片逐步加噪声→变成全是噪点的乱图；
反向去噪：从随机噪点，根据文字提示词，一步步去掉噪声生成新图片。

输入：Prompt 文字（配合 CLIP 编码文本）输出：全新图片代表：Stable Diffusion、Midjourney 底层、DALL・E 3

6、Agent（AI 智能体）

Agent = 具备自主思考、规划、分步执行复杂任务的 AI 代理

普通大模型只能单次问答；Agent 自带三大核心能力：

记忆 (Memory)：记住历史对话、任务信息；
规划 (Planning)：把复杂任务拆成多步小任务（比如 “帮我做一份月度财报”→查数据→计算→生成文档）；
工具调用 (Tool/Function Call)：主动调用外部能力完成任务。

7、Skill（技能）

Skill 是 Agent 可调用的最小功能单元，即单个工具 / 能力一个 Skill 对应一项具体功能接口：联网搜索、代码运行、PDF 解析、计算器、数据库查询、微信消息推送都属于 Skill；

Agent = 大脑 (大模型LLM) + 一堆 Skill (手脚工具)。

8、Prompt（提示词工程）

Prompt 是为了规范化输入文本，用来控制模型输出内容

1）Zero-Shot（零样本）不给例子，直接发指令，模型凭原生知识作答。

2）One-Shot（单样本）：只给 1 组示例。先给一组示例：输入和标准答案然后再问问题

3）Few-Shot（少样本）给 2~5 个示例，再让模型处理新问题，大幅提升准确率。

4）ICL In-Context Learning 上下文学习就是 Few/Zero-Shot 的底层原理，在上下文里塞一些示例实现小样本学习，不用微调模型。

5）CoT Chain-of-Thought 思维链提示模型 “一步步思考再回答”，复杂数学 / 逻辑题效果暴涨。

6）Prompt Template 提示词模板：固定格式的 Prompt，RAG、LangChain 中批量复用。

7）System Prompt（系统提示词）角色设定，全局规则，如：你是资深财务分析师，回答简洁。

8）User Prompt（用户提示词）：用户实际提问内容。

9、RAG（检索增强生成）

RAG = Retrieval-Augmented Generation，检索增强生成解决大模型知识过时、私有数据无法入库的核心方案，落地私有知识库必备

作用：把自有文档（PDF/Word/ 知识库）喂给 AI，大模型不再依赖内部过时知识，从私有资料找答案，解决幻觉、知识滞后。

RAG 完整流程：（文档切片→向量化→入库→检索→拼接 Prompt→大模型生成答案）原始文档→切 Chunk→Embedding 向量化→存入向量库；用户提问→问题向量化 + 检索 TopK 片段→Rerank 筛选→片段 + 用户问题拼成 Prompt→LLM 基于参考文档生成回答。

1）Chunk（文本块 / 分片）：把长篇文档按固定字数切分成小段，是 RAG 最小存储单元。

2）Chunk Splitter（文本分割器）：LangChain 工具，按字符 / 标题 / 语义切割文本（递归分割、语义分割）。

3）Embedding（向量化）：把文字转换成一串数字向量，语义相近的文本向量距离近；用来实现相似度检索。

4）Embedding Model（向量化模型）：专门生成向量的模型（bge、text-embedding、m3e）

5）Vector Database（向量数据库）：专门存 Embedding 向量的数据库，高效做相似度搜索常见：Milvus、Chroma、FAISS、Pinecone、Qdrant。

6）Index（索引）：向量库构建的检索索引，加速查询速度。

7）Retriever（检索器）：输入问题→转向量→从向量库捞出匹配度最高的 Chunk。

8）Top-K：一次检索返回前 K 个相似度最高的文本片段（常用 K=3/5）。

9）Semantic Search（语义检索）：基于向量相似度搜索，不是关键词字面匹配。

10）Keyword Search（关键词检索）：传统 ES 关键词匹配（BM25 算法）。

11）Hybrid Search（混合检索）：BM25 关键词 + 向量检索结合，RAG 最优方案。

12）Rerank（重排序 / 重排）：初次检索拿到多条文档后，用小模型二次打分筛选，剔除无关片段，提升送入 LLM 的文档质量。

13）Query Rewrite（查询改写）：把用户口语化提问优化成标准检索问句，提升检索命中率。

14）Parent-Document RAG（父文档检索）：检索小块，返回原大块原文，解决 Chunk 拆分丢失上下文问题。

15）Self-RAG：大模型自主判断是否需要调用知识库检索，智能启停 RAG。

16）Prompt Construction（提示词拼接）：把检索出来的参考文档 + 用户问题一起塞进 Prompt 给 LLM，模型参考资料作答（RAG 核心一步）。

17）Grounding（事实锚定）：AI 答案严格基于检索文档，减少 Hallucination。

18）Hallucination（幻觉）：大模型无依据编造虚假信息，RAG 就是最主流的去幻觉方案。

19）Ground Truth（真实标准答案）：用来评测 RAG、Prompt 效果的基准数据。

20）Eval（评测）：RAG 评测指标：召回率 Recall、精准率 Precision。

10、OpenClaw 养龙虾

它与大模型、Agent 的关系可概括为：

大模型是 “大脑”，
Agent 是 “数字员工”
OpenClaw 是让 Agent 能自主操作电脑的 “执行引擎”

解决传统大模型 “只会说不会做” 的痛点，让 AI 能直接操控电脑完成实际任务（如文件整理、写代码、数据爬取、自动化办公等）

OpenClaw 是一个完整的 AI Agent 系统，内置 Agent 核心组件

11、大模型 LLM 列表

1）国际

厂商	核心模型	关键特点	开源情况
OpenAI（美国）	GPT-5.2 Ultra、GPT-5.2 Pro、o4	推理系列	120 万 token 上下文、AGI 领先、多模态全能
Google/DeepMind（美国）	Gemini 3.0、Gemma 2.0	多模态天花板、上下文窗口超大、推理速度快	Gemma 开源
Anthropic（美国）	Claude 4 Opus、Claude 4 Sonnet	超长文本处理（200 万 token）、AI 安全优先	闭源（API 开放）
Meta（美国）	LLaMA 3（400B）、LLaMA 3.1	开源界标杆、支持商用、多模态能力强	完全开源（商用友好）
Mistral AI（法国）	Mistral Large 2、Mixtral 8x22B	高效推理、低延迟、欧洲 AI 代表	部分开源
Cohere（加拿大）	Command R+、Command Light	企业级检索增强、多语言支持	闭源（API 开放）
Inflection AI（美国）	Inflection-2.5	对话体验自然、情感理解强	闭源（API 开放）

2）国内

厂商	核心模型	关键优势	开源情况
百度	文心一言 5.0（ERNIE 5.0）	产业级应用领先、金融 / 能源 / 制造私有化部署第一	部分开源（ERNIE 系列）
阿里	通义千问 3.6（Qwen 3.6）	均衡性能、企业生态完善	Qwen 系列完全开源
字节跳动	豆包大模型 V4	多模态能力强、C 端用户体验佳	部分开源
腾讯	混元大模型 4.0	社交生态融合、企业服务完善	部分开源
华为	盘古大模型 4.0	全栈自研（昇腾芯片 + 模型 + 平台）、国产化适配	部分开源
DeepSeek（深度求索）	DeepSeek-MoE 236B	稀疏 MoE 架构、高效推理
智谱 AI	GLM-5 系列	长文本处理、数学推理强
科大讯飞	讯飞星火 V4	认知智能、教育领域深耕
百川智能	百川大模型 3.0	中文理解、对话生成
Minimax	ABAB 5.0	多模态、内容创作

12、智能体 Agent 列表

1）开源框架

框架名称	出品方	核心特点
LangChain	LangChain Inc.	大模型应用开发基础框架、RAG 核心支持 100K+
LangGraph	LangChain Inc.	图式编排、显式状态管理、企业级生产应用 90K+
AutoGPT	开源社区	自主任务执行、早期 Agent 标杆 184K+
CrewAI	开源社区	角色化协作、多智能体分工 45K+
OpenAI	Agents SDK	OpenAI 轻量易用、少抽象、生产级支持 30K+
AgentScope	阿里巴巴	Python/Java 双支持、企业级 Agent 开发 25K+
MetaGPT	开源社区	软件公司模拟、团队协作流程 40K+

2）低代码框架

框架名称	出品方	核心特点
Betteryeah	阿里系	零基础用户，纯零门槛 Agent 搭建
Agentar	蚂蚁数科	企业开发者，全栈式智能体开发平台
Dify	开源社区	全栈开发者，可视化 Agent 开发、RAG 集成
魔搭 Agent	阿里云	开发者 / 企业，基于通义千问的 Agent 开发平台
文心 Agent	百度智能云	企业用户，产业级 Agent 快速部署