AI大模型应用开发的10个核心术语通俗解读!

点击“蓝字” 关注我们

1、LLM（大语言模型）

全称 Large Language Model，直译就是“大语言模型”，是所有大模型相关应用的开发基础，对应开发工作里的“核心服务”，我们所有的功能开发都是围绕它展开的。

通俗来讲，LLM 就像一个知识储备丰富但做事比较随性的大脑，经过海量的文本数据训练，它能够听懂自然语言、自主生成内容、完成基础逻辑推理。但它不会主动开展工作，需要我们人为引导、设定约束规则才能正常使用。

实战层面来看，我们日常开发用到的 GPT、文心一言、通义千问、DeepSeek-V2 等模型，都属于 LLM 的范畴。我们开发的对话机器人、文档分析、代码生成等各类AI应用，本质上都是借助 LLM 的原生能力，去解决不同场景的具体业务问题。

LLM 属于概率性组件，想要保证应用稳定运行，需要搭配容错、回退机制，它也是AI实现智能涌现的核心引擎。

2、Prompt（提示词）

Prompt 也就是提示词，对应的提示工程，是我们向 LLM 传递需求、引导模型输出预期结果的指令。放在传统开发里，它的作用类似“接口参数”，但灵活性更高，主要依靠自然语言的形式来表达需求。

简单来说，不管是让 LLM 写代码、总结文章，还是分析各类问题，你对模型说出的需求话语，就是 Prompt。优质的 Prompt 可以让 LLM 精准理解需求、少出偏差，输出内容更贴合预期；如果 Prompt 表述模糊，就很容易出现答非所问的情况。

在实际开发中，Prompt 并不是随意一句话就能胜任，它有着明确的设计标准，核心是表述清晰、结构完整、约束明确。比如“作为一名 Java 后端开发者，用 FastAPI 写一个简单的接口，要求返回 JSON 格式，包含状态码和数据字段”，就是一条合格的 Prompt。

Prompt 贯穿大模型应用开发的全过程，直接影响 RAG、Agent 等技术的落地效果，是开发者和 LLM 交互的核心桥梁。

3、Token（词元）

Token 是 LLM 处理文本的最小单位，对标传统开发中的“字节”，主要用来统计输入、输出的文本总量，同时也是大模型 API 计费的核心依据。通俗来说，一个 Token 可以是单个汉字、一个英文单词，也可以是一个标点符号。

举个例子，“你好”对应 2 个 Token，“hello”对应 1 个 Token，中文逗号“，”也对应 1 个 Token。实际开发中，必须重点关注 Token 限制，每一款 LLM 都有固定的上下文长度，也就是最大支持 Token 数量。

比如普通版 GPT-4 的上下文长度为 8k Token，一旦超出这个范围，模型就会丢失前文信息，出现内容断层的问题。

除此之外，Token 消耗数量越高，API 调用的成本就越高，因此在日志分析工作中，我们需要重点追踪 Token 消耗情况，以此优化应用的运行成本和运行性能。

4、RAG（检索增强生成）

全称 Retrieval-Augmented Generation，直译是“检索增强生成”，是目前大模型应用开发中最常用的核心技术之一，核心作用是为 LLM 补充参考资料，从根源上避免模型捏造虚假信息。

大家可以简单理解，LLM 的训练数据有固定截止时间，自带的知识存在时效性局限，而且很容易凭空编造不存在的信息，也就是行业常说的模型幻觉。

而 RAG 就相当于给 LLM 搭建了一个专属知识库，用户提出问题后，系统会先从专属知识库中检索匹配的相关资料，再让 LLM 依托真实资料生成回答，相当于让模型开卷答题。

在实际开发中，企业知识库搭建、产品咨询、文档分析等场景的AI应用，基本都离不开 RAG 技术。

它既能解决 LLM 知识滞后、回答不准确的问题，还不用投入高额成本对模型做微调，只需更新知识库内容，就能让模型快速掌握全新知识，是企业级大模型应用的标配技术，这项技术的落地效果，主要依靠向量数据库实现高效检索。

5、Embedding（嵌入）

实现“语义检索”Embedding 即“嵌入”，简单来说，就是把文本、图片等无法直接被计算机识别的非结构化数据，转换成计算机可以读取识别的数值向量，也就是一串专属数字，这也是 RAG 技术能够实现语义检索的核心前提。

通俗举例，我们平时搜索“苹果手机”，传统搜索方式只会机械匹配关键词，而经过 Embedding 处理后，模型能够识别出“苹果手机”和“iPhone”指代的是同一种事物，因为两者转化后的数值向量相似度极高、距离极近。

它可以精准捕捉内容的深层语义特征，让检索不再局限于关键词匹配，大幅提升检索精准度。落地开发中，搭建 RAG 应用时，需要提前把知识库中的所有文档、用户的各类提问，统一转化为 Embedding 向量，再通过向量数据库完成存储和检索工作。

目前常用的 Embedding 模型主要有 OpenAI 的 text-embedding-ada-002、国产的通义千问 Embedding 等，它是打通非结构化数据和大模型交互的关键纽带。

6、向量数据库

向量数据库是专门用来存储和管理 Embedding 向量的数据库，和传统开发使用的 MySQL、Redis 数据库不一样，它的核心优势是高效计算向量相似度，核心作用是快速匹配并调取和用户提问最相关的知识库资料。

可以通俗理解，如果把每一个 Embedding 向量都看作一个专属坐标，那向量数据库就相当于一张完整地图，能够快速定位出和当前坐标相似度最高的其他坐标，也就是匹配出和用户问题最贴合的知识库内容，完美解决了传统数据库无法高效完成语义相似性检索的行业痛点。

在实际开发中，只要做 RAG 应用开发，就必须搭配向量数据库，业内常用的类型包括 Pinecone、Milvus、Chroma、FAISS 等。

向量数据库的性能好坏，直接决定了 RAG 检索的速度和准确率，既是大模型应用中知识存储与检索的核心载体，也是 Agent 记忆模块实现的重要支撑。

7、Function Calling（函数调用）

Function Calling 也就是函数调用，是 LLM 的核心原生能力之一。简单来说，就是 LLM 解析完用户需求后，能够自动调用提前设置好的外部函数、接口或工具，完成具体操作，再根据外部工具的执行结果，生成最终的回答内容。

通俗来讲，LLM 擅长思考分析、生成内容，但没办法直接落地实操。比如查询实时天气、调取数据库数据、发送邮件这类实操操作，都需要依靠 Function Calling，让 LLM 像开发调用接口一样，触发外部工具完成对应操作，再将执行结果反馈给 LLM，形成完整的任务闭环。

在实战开发中，自动查订单、批量生成报表等智能助手类应用，核心都依赖 Function Calling 能力。它打破了 LLM 只能独立思考、无法联动实操的局限，让大模型能够对接各类业务系统和第三方工具，是实现AI自主完成各类工作的基础。

目前市面上的主流大模型都原生支持这项能力，也可以通过 MCP 协议实现跨模型的通用函数调用。

8、Agent（智能体）

Agent 即智能体，是大模型应用的高阶落地形态。它的核心逻辑是依托 LLM，融合记忆、自主规划、工具调用等多项能力，独立完成各类复杂任务，相当于一个能够自主思考、主动执行工作的AI打工人。

举个通俗的例子，你让 Agent 完成“撰写大模型应用开发文章、匹配配图、排版优化、发布至公众号”的全套任务，它会自主拆解出分步流程：先写文案、再匹配配图、接着完成排版、最后执行发布，同时自动调用对应的文案生成、图片处理、公众号对接工具，全程无需人工干预。

Agent 整合了 LLM、RAG、Function Calling 等多种核心技术，让大模型从简单的问答交互，升级为可以自主执行复杂任务的高阶形态。从行业实战来看，Agent 是2026年大模型应用开发的热门赛道，常用开发框架包含 LangChain、LangGraph、MetaGPT、CrewAI 等。

自动工单处理、智能数据分析、批量代码生成等复杂场景的开发，借助 Agent 能够大幅提升工作效率。其核心架构主要包含规划、记忆、工具调用、自我反思四大模块，是多项AI技术融合的高阶应用形态。

9、微调（Fine-tuning）

微调，就是针对已经训练完成的通用预训练 LLM，使用特定领域的专属数据集做二次训练，让模型更加适配细分业务场景，相当于给通用型的AI大脑做专项技能培训。

通俗解释，通用 LLM 覆盖的知识领域广、适配场景多，但针对金融、医疗、法律等专业细分领域，回答的精准度、专业性会有所欠缺。而微调就是利用行业专属数据，比如金融合同、医疗病历、法律文书等，让模型专项学习对应领域的专业知识和表述风格，输出内容会更贴合具体业务需求。

在实际开发中，如果 RAG 技术已经无法满足业务的高精度需求，比如专业领域深度问答、固定风格内容生成等场景，就需要用到微调。

但微调的成本和技术门槛都比较高，行业通用做法是优先通过 RAG 优化效果，只有 RAG 无法达标时，再启动微调。微调是大模型定制化落地的核心方式之一，和模型蒸馏共同组成了大模型优化的核心路径。

10、模型蒸馏（Model Distillation）

模型蒸馏，简单来说，就是把体积大、结构复杂的大模型（教师模型）所具备的核心知识，迁移到体积小、运行高效的小型模型（学生模型）中。

核心目的是保留模型核心能力的同时，缩小模型体积、降低推理运行成本，相当于给笨重的大型AI大脑做精简瘦身，让它能够适配更多设备的运行环境。

通俗来讲，我们常用的 GPT-4、文心一言等主流大模型，整体体积大、推理速度慢、调用成本高，没办法部署在手机、边缘设备等资源有限的终端上。

而模型蒸馏就像提炼精华，完整保留大模型的理解、生成等核心能力，同时对模型进行压缩精简，让小型模型既能保证输出效果，又能实现快速推理、降低使用成本。

实战开发中，手机APP内置AI助手、边缘设备本地化AI应用等场景，都必须用到模型蒸馏技术。

它有效解决了大模型部署难、成本高、推理慢的痛点，和微调技术形成互补，微调主打模型定制化适配，蒸馏主打模型轻量化落地，是大模型适配各类终端场景、实现规模化落地的关键技术。目前常用的蒸馏方式主要包含知识蒸馏、量化蒸馏等。

来源：互联网摘抄

版权归原作者所有，如有侵权，请联系删除。

扫|码|关|注