1、LLM(大模型)
LLM = Large Language Model,大语言模型 LLM(大语言模型):常见的LLM是基于 Transformer 结构、海量文本数据预训练,能理解、生成人类自然语言的模型, 代表:GPT 系列、Llama、Qwen 通义千问、文心一言、星火大模型
2、MLLM(多模态大模型)
MLLM = Multimodal Large Language Model ,多模态大语言模型; 能处理图片、音频、视频、文本,是所有超大参数量预训练 AI 模型的统称
区别:LLM 只处理文本;MLLM = 文本 + 图像 + 音频 + 视频等多模态输入输出
3、VLM(视觉语言大模型)
VLM = Vision-Language Model 觉语言大模型 作用:既能看懂图片,又能理解文字,图文交互问答 输入:图片 + 自然语言提问 输出:文字答案
4、CLIP(图文对比预训练)
CLIP(Contrastive Language-Image Pre-training) CLIP 是图文配对的尺子,没有 CLIP 就很难实现文生图、看图问答
OpenAI 提出的图文对齐基础模型,VLM 的基石 核心目标:把图片、文字映射到同一个向量空间
图片编码器→图片向量 文本编码器→文字向量 内容匹配的图文向量靠近,不匹配的远离
用途:
给 VLM 做底座:绝大多数看图大模型用 CLIP 思路做图文对齐; 文搜图 / 图搜文:输入文字找对应图片、上传图片搜相似图; 扩散模型(Diffusion)文生图的文本编码器大多基于 CLIP。
5、Diffusion(扩散模型)
用途:图像生成(文生图、图生图、超分、AI 绘画),「生成型模型」
原理:
正向扩散:干净图片逐步加噪声→变成全是噪点的乱图; 反向去噪:从随机噪点,根据文字提示词,一步步去掉噪声生成新图片。
输入:Prompt 文字(配合 CLIP 编码文本) 输出:全新图片 代表:Stable Diffusion、Midjourney 底层、DALL・E 3
6、Agent(AI 智能体)
Agent = 具备自主思考、规划、分步执行复杂任务的 AI 代理
普通大模型只能单次问答;Agent 自带三大核心能力:
记忆 (Memory):记住历史对话、任务信息; 规划 (Planning):把复杂任务拆成多步小任务(比如 “帮我做一份月度财报”→查数据→计算→生成文档); 工具调用 (Tool/Function Call):主动调用外部能力完成任务。
7、Skill(技能)
Skill 是 Agent 可调用的最小功能单元,即单个工具 / 能力 一个 Skill 对应一项具体功能接口:联网搜索、代码运行、PDF 解析、计算器、数据库查询、微信消息推送都属于 Skill;
Agent = 大脑 (大模型LLM) + 一堆 Skill (手脚工具)。8、Prompt(提示词工程)
Prompt 是为了规范化输入文本,用来控制模型输出内容
1)Zero-Shot(零样本) 不给例子,直接发指令,模型凭原生知识作答。
2)One-Shot(单样本):只给 1 组示例。 先给一组示例:输入 和 标准答案 然后再问问题
3)Few-Shot(少样本) 给 2~5 个示例,再让模型处理新问题,大幅提升准确率。
4)ICL In-Context Learning 上下文学习 就是 Few/Zero-Shot 的底层原理,在上下文里塞一些示例实现小样本学习,不用微调模型。
5)CoT Chain-of-Thought 思维链 提示模型 “一步步思考再回答”,复杂数学 / 逻辑题效果暴涨。
6)Prompt Template 提示词模板: 固定格式的 Prompt,RAG、LangChain 中批量复用。
7)System Prompt(系统提示词) 角色设定,全局规则,如:你是资深财务分析师,回答简洁。
8)User Prompt(用户提示词):用户实际提问内容。
9、RAG(检索增强生成)
RAG = Retrieval-Augmented Generation,检索增强生成 解决大模型知识过时、私有数据无法入库的核心方案,落地私有知识库必备
作用:把自有文档(PDF/Word/ 知识库)喂给 AI,大模型不再依赖内部过时知识,从私有资料找答案,解决幻觉、知识滞后。
RAG 完整流程:(文档切片→向量化→入库→检索→拼接 Prompt→大模型生成答案) 原始文档→切 Chunk→Embedding 向量化→存入向量库; 用户提问→问题向量化 + 检索 TopK 片段→Rerank 筛选→片段 + 用户问题拼成 Prompt→LLM 基于参考文档生成回答。
1)Chunk(文本块 / 分片):把长篇文档按固定字数切分成小段,是 RAG 最小存储单元。
2)Chunk Splitter(文本分割器):LangChain 工具,按字符 / 标题 / 语义切割文本(递归分割、语义分割)。
3)Embedding(向量化):把文字转换成一串数字向量,语义相近的文本向量距离近;用来实现相似度检索。
4)Embedding Model(向量化模型):专门生成向量的模型(bge、text-embedding、m3e)
5)Vector Database(向量数据库):专门存 Embedding 向量的数据库,高效做相似度搜索 常见:Milvus、Chroma、FAISS、Pinecone、Qdrant。
6)Index(索引):向量库构建的检索索引,加速查询速度。
7)Retriever(检索器):输入问题→转向量→从向量库捞出匹配度最高的 Chunk。
8)Top-K:一次检索返回前 K 个相似度最高的文本片段(常用 K=3/5)。
9)Semantic Search(语义检索):基于向量相似度搜索,不是关键词字面匹配。
10)Keyword Search(关键词检索):传统 ES 关键词匹配(BM25 算法)。
11)Hybrid Search(混合检索):BM25 关键词 + 向量检索结合,RAG 最优方案。
12)Rerank(重排序 / 重排):初次检索拿到多条文档后,用小模型二次打分筛选,剔除无关片段,提升送入 LLM 的文档质量。
13)Query Rewrite(查询改写):把用户口语化提问优化成标准检索问句,提升检索命中率。
14)Parent-Document RAG(父文档检索):检索小块,返回原大块原文,解决 Chunk 拆分丢失上下文问题。
15)Self-RAG:大模型自主判断是否需要调用知识库检索,智能启停 RAG。
16)Prompt Construction(提示词拼接):把检索出来的参考文档 + 用户问题一起塞进 Prompt 给 LLM,模型参考资料作答(RAG 核心一步)。
17)Grounding(事实锚定):AI 答案严格基于检索文档,减少 Hallucination。
18)Hallucination(幻觉):大模型无依据编造虚假信息,RAG 就是最主流的去幻觉方案。
19)Ground Truth(真实标准答案):用来评测 RAG、Prompt 效果的基准数据。
20)Eval(评测):RAG 评测指标:召回率 Recall、精准率 Precision。
10、OpenClaw 养龙虾
它与大模型、Agent 的关系可概括为:
大模型是 “大脑”, Agent 是 “数字员工” OpenClaw 是让 Agent 能自主操作电脑的 “执行引擎”
解决传统大模型 “只会说不会做” 的痛点,让 AI 能直接操控电脑完成实际任务(如文件整理、写代码、数据爬取、自动化办公等)
OpenClaw 是一个完整的 AI Agent 系统,内置 Agent 核心组件
11、大模型 LLM 列表
1)国际
2)国内
12、智能体 Agent 列表
1)开源框架
2)低代码框架
夜雨聆风