“
刚转行做 AI 产品经理,常会被RAG、微调、智能体、工作流等专业词汇卡住?不知道模型是否适配业务,也不知道不同场景该选择?本文结合行业主流技术体系 + 一线落地实战经验,实时更新AI 产品经理全维度硬核概念清单和实操建议,覆盖大模型基础、模型优化、部署架构、评估指标、性能优化、模型选型等板块。适配零基础转行的你。
。”
01
—
一、大模型基础(LLM Fundamentals)
1. LLM(Large Language Model,大语言模型)
定义:基于Transformer 架构、依托海量海量语料预训练而成的生成式语言模型,是所有 AI 对话、创作、自动化应用的底层核心底座。
实战要点:无需深究底层代码,产品侧必须掌握模型能力边界、原生幻觉风险、上下文限制(出参入参限制)、计费成本四大核心要素,以此作为功能设计、技术选型的核心依据。
2. Transformer(Transformer 架构)
3. Token(词元)
定义:大模型处理文本的最小基础单元,英文近似独立单词,中文多为单字或固定词组。
实战要点:模型计费、上下文限额、接口限流、请求截断全部以 Token 为唯一统计标准;行业通用换算规则:中文 1 汉字≈1.3Token;产品设计长文本功能时,必须前置做好 Token 预估与自动截断策略。(入参出参都需要消耗token)
4. Temperature(温度系数)
定义:控制大模型输出随机性与创意发散程度的核心超参数,取值范围
0~1。
0.0~0.3:输出严谨、答案唯一、无发散性,适配知识库问答、数据查询、政务咨询; 0.7~1.0:发散性强、创意度高、答案多元化,适配营销文案、故事创作、创意策划。
5. Context Window(上下文窗口)
定义:模型单次前向推理过程中,能够读取、记忆、关联理解的最大 Token 总量,市面主流规格:8k/32k/64k/128k。
实战要点:窗口范围内的所有内容可被模型联动理解,超出窗口阈值的内容会直接丢失记忆;长会话机器人、长文档解析、万字标书生成等场景,必须优先配置大上下文窗口模型。(大白话讲就是单次推理周期内,传入模型内容+模型输出内容的token总合上限)另外只有transformer架构的大语言模型才有上下文窗口。
联想引申:上下文窗口是模型的短期记忆容量,限制上下文窗口的大小实际是控制算力负担,保障实时交互效率。比如在和豆包聊天过程中每次回答都要读取当前会话所有内容,如果不设窗口限制,每轮的token量都会增加,会让推理变慢,响应延迟,增加GPU的算力消耗。除了要做短期记忆存储外,在沉淀数据资产的目标下,摆脱临时窗口的约束,需要将部分信息(用户固定使用规则、业务偏好、行业知识)等可复用有价值的信息进行向量化数据库存储。
6. 向量数据库
定义:专门存放语义向量的数据库。文本、图片等内容会被转换成一串数字(语义指纹),它能快速检索出意思相近的内容。
实战要点:传统数据库按关键词查找,向量数据库按语义查找。不用深耕底层代码,明确业务检索需求、数据量级、更新频率即可。是搭建私有知识库、智能体长期数据资产的核心底座。
7. Hallucination(AI 幻觉)
定义:大模型原生底层缺陷,指模型在无真实依据的情况下,凭空编造事实、专业数据、参考文献、逻辑关系、行业规则的行为。
实战要点:纯创意生成、超长文本问答、冷门专业知识问答场景幻觉高发;政务、法务、标书、金融数据分析等严谨业务,需采用「RAG 知识库 + Prompt 强约束 + 结果二次校验」三重方案防控幻觉。
8. 开源大模型 vs 闭源大模型(Open-source vs Closed-source LLM)
定义:研发厂商不开放模型权重、底层训练代码,仅对外提供标准化 API 接口、云端服务的商用大模型。代表产品:GPT-4o/5、Claude Opus 4.6、百度文心一言、阿里通义千问闭源版。
开源大模型(Open-source LLM)定义
定义:研发厂商对外完全公开模型权重与基础代码,开发者可自由下载、本地化部署、二次训练、深度改造的大模型。代表产品:Llama 3/4、通义千问开源版、GLM、DeepSeek、Mistral。核心特点:
实战要点:
1.追求顶级推理 / 多模态能力、短期快速上线、非涉密业务 → 选用闭源 API;
2.数据涉密、政策合规要求高、长期大批量调用、需要定制化微调 → 选用开源私有化;
3.中大型企业通用方案:混合架构(通用场景用闭源、涉密垂直场景用开源)。
9. Embedding(向量 / 嵌入)
定义:通过嵌入模型,将文本、图片等非结构化原始数据,转化为高维数字化向量,相当于给每一份内容生成独一无二的「语义指纹」。
实战要点:语义相似度越高的内容,在向量空间内的距离越近;该技术是 RAG 检索、AI 长期记忆、语义聚类、相似内容推荐的核心底层支撑。
10. SOTA(State-of-the-Art,当前最优模型)(这不是什么技术概念,是行业黑话hhh)
定义:在公开权威评测基准下,现阶段综合性能 / 单项性能排名第一的模型或技术方案。
PM 实战要点:SOTA 模型≠适配所有业务场景,切勿盲目选型;通用能力 SOTA:GPT-5、Claude Opus 4.6、Gemini 3 Pro;中文垂直 SOTA:通义 Qwen3.5、DeepSeek V4(开源);代码垂直 SOTA:GPT-4o、Claude Opus 4.6、Qwen2.5-Coder-32B(开源)。
11. Fine-tuning(模型微调)
定义:在预训练原始大模型基础上,导入垂直行业专属标注数据集,对模型权重进行二次训练,重塑模型的应答话术、输出格式、专业知识库与行为习惯。
适用场景
需要统一固定应答话术、标准化输出格式; 垂直小众行业专属问答、定制化 AI 人设; 业务规则固定、长期无大幅度变更的场景。
核心限制
仅开源大模型支持全量 / 增量微调;闭源模型无权重权限,无法微调;微调落地需要高质量标注数据集、高端 GPU 算力、7-15 天训练周期,综合落地成本高于 RAG。
12.RAG(Retrieval-Augmented Generation,检索增强生成)
核心价值
一站式解决三大行业痛点:大模型训练知识滞后、AI 原生幻觉、私有内网数据无法问答。
不适用场景
纯创意文案创作、无固定知识库的自由闲聊、开放式头脑风暴。
标准落地流程
文档切片(Chunking):将超长文档,按固定长度、语义相似度、文档标题层级三种策略拆分独立片段; 向量化(Embedding):将所有切片内容转化为高维向量,存入专用向量数据库; 检索(Retrieval):解析用户提问并转向量,匹配库内 Top-K 高相似度内容片段; Prompt 拼接:整合用户问题、检索片段、输出约束、格式要求; 生成(Generation):大模型基于参考内容,输出无幻觉的标准化答案。
02
—
二、Prompt 工程与治理(Prompt Engineering & Governance)
1. Prompt Engineering(提示词工程)
定义:通过标准化设计指令,定义 AI 角色、任务目标、执行约束、输出格式、参考示例,以此约束大模型行为,稳定输出符合业务预期结果的技术手段,是初级 AI 产品的核心基础能力。
Prompt 核心组成六要素
Role(角色):明确 AI 身份、职业、专业能力、行为边界; Task(任务):精准定义核心工作目标、拆解附属子任务; Format(格式):强制约定输出排版、结构、语种、文件格式; Constraints(约束):划定禁止操作、字数阈值、逻辑规则、行业禁忌; Examples(示例):提供 1-3 组参考样例,辅助模型理解业务标准(Few-shot)(正向事例和负向事例); Guardrails(安全护栏):拦截无效闲聊、敏感内容、不实输出,模糊问题统一固定话术
3. Prompt Chaining / Looping(链式 / 循环 Prompt)
定义:
将复杂高难度任务拆分为多个简单子步骤,通过多轮模型调用、循环校验、迭代优化,完成单一 Prompt 无法实现的复杂需求。
应用场景:标书全流程撰写、万字长文案创作、多层级内容校对、数据交叉审核、长文档拆解总结。
4. Prompt Governance(提示词治理)
定义:面向企业级产品的 Prompt 全生命周期管理体系,专为多团队协作、大型平台类 AI 产品设计。
核心包含内容:统一 Prompt 模板库、版本迭代回溯、人员权限管控、A/B 效果测试、合规风险监控、数据效果复盘。
03
—
三、智能体相关:Skill、Agent、工作流(AI Agent & Workflow)
1. Skill(技能)
定义:构成智能体与 AI 工作流的最小独立可复用能力单元,单一 Skill 仅对应一项专属操作,遵循单一职责原则。常见类型:文档切片解析、Excel 数据查询、格式转换、第三方接口调用、多语言翻译、内容查重;
实战要点:单个 Skill 无法完成复杂业务,多个不同 Skill 自由组合,是搭建 Agent、复杂 Workflow 的基础。
2. Agent(智能体)
定义:具备意图感知、自主任务规划、技能调度、工具调用、长期记忆、结果复盘完整闭环的自主执行 AI 主体,突破传统单轮问答限制,可无人干预独立完成复杂复合型任务。
智能体的属性:
3. Workflow(AI 工作流)
定义:将模型调用节点、Skill 技能节点、Agent 智能体、第三方接口、条件判断、循环节点,按照固定业务逻辑串联而成的自动化执行链路,是现阶段企业复杂 AI 落地的主流形态。
实战分类:固定线性工作流、多条件分支工作流、循环迭代工作流;三者层级关系:Skill(最小能力单元)→ Workflow(标准化固定流程)→ Agent(自主决策动态流程)。
04
—
四、模型评估指标
1. Precision(精确率 / 准确率)
公式:模型输出正确结果 ÷ 全部输出结果核心关注:管控错误应答、降低 AI 幻觉概率,是政务、金融、问答类严谨业务的第一优先级指标。
2. Recall(召回率)
公式:被成功检索 / 应答的正确结果 ÷ 全部真实有效结果核心关注:规避内容漏检、问题漏答,是 RAG 检索系统、批量数据查询场景的核心考核指标。
3. F1-Score(F1 值)
定义:精确率与召回率的加权调和平均值,用于平衡准确率与召回率的矛盾,评判模型综合性能。实战用途:RAG 版本迭代、模型横向对比、项目验收、行业方案评比通用标准指标。
05
—
五、性能与稳定性
1. Concurrency(并发)
定义:同一时间节点内,向模型服务发起的有效请求总数量。
实战要点:公有 API 平台自带并发上限,超量直接触发 429 报错、请求排队;私有化部署并发上限由 GPU 算力、推理框架、模型大小共同决定;产品设计阶段必须配置多级限流机制,保障服务稳定。
2. Caching Strategy(缓存策略)
定义:系统缓存高频重复问题对应的 AI 标准答案,用户发起重复请求时,直接返回缓存内容,无需重复调用大模型。
核心价值:大幅降低 Token 消耗、减少算力开销、缩短响应耗时、提升用户体验; 适用场景:固定 FAQ 问答、通用咨询、标准化数据查询; 不适用场景:个性化专属对话、实时动态数据、创意类内容生成。
3. Latency(响应耗时)
定义:从用户发起请求,到前端完整接收模型返回内容的全链路时长,直接决定用户体验好坏。
主流优化方案:启用内容缓存、精细化优化文档切片、适配轻量化模型、模型量化、并发调度优化。
夜雨聆风