AI产品经理核心工作流程---技术选型(二)

这篇是对上篇技术选型的补充AI产品经理核心工作流程---技术选型

全景地图：AI 产品经理要做的技术方案选择

AI技术选型全景	主要选择点
知识检索	向量RAG / 标量RAG / GraphRAG / HybridRAG
Agent架构	Workflow / 自主规划 / ReAct / Reflection
多Agent	串行/并行/集中分布式/协商博弈
能力接入	Skill / MCP / Function Calling / Plugin
存储选型	向量库 / 图数据库 / 关系型 / 混合存储
模型调用	直接调用 / Prompt优化 / 微调 / 蒸馏
部署架构	公有云API / 私有化 / 混合云 / 边缘推理
框架工具	开发框架: LangChain/LangGraph/LlamaIndex/AutoGen/MetaGPT 低代码平台: Dify/Coze/FastGPT
安全合规	内容安全 / 权限隔离 / 数据脱敏 / 审计链

一、知识检索方案选型（RAG 类型）

1.1 几类 RAG 的核心差异

类型	工作原理	优势	劣势	适用场景
向量 RAG	文本向量化后做语义相似度检索	语义理解强，支持模糊查询，跨语言泛化能力强	精确匹配弱，编号/代码/关键词召回不稳定，向量化有延迟	问答系统、知识库问答、非结构化文本检索
标量 RAG	基于关键词/BM25/倒排索引做精确匹配	精确查询强，无向量化开销，实现简单，延迟低	语义理解差，无法处理近义词/同义词	编号查询、合同条款检索、代码片段检索
Graph RAG	知识提取后建图，通过图遍历/实体关系做多跳推理	多跳关联强，可追溯推理路径，对复杂关系表达清晰	知识图谱构建成本高，维护复杂，实时性差	企业知识图谱、合规规则推导、多实体关联分析
Hybrid RAG	向量检索 + 标量检索融合，RRF/加权重排	兼顾语义与精确，召回率和准确率平衡最佳	架构复杂度翻倍，需调参，成本较高	企业级知识库（90%以上生产场景推荐方案）

1.2 选型判断树

1.3 业务场景对应方案

业务场景	推荐方案	关键理由
客服知识库问答（产品手册、FAQ）	Hybrid RAG	用户表达多样，但部分问题涉及型号/编号精确匹配
法律合同审查（条款检索）	标量 RAG 为主 + 向量辅助	合同条款需要精确匹配，语义模糊反而有风险
企业内部合规问答（风控规则）	Graph RAG + 向量 RAG	规则之间存在大量依赖和例外关系，需要多跳推理
ICP 备案知识库（政策文件检索）	Hybrid RAG	政策文号/编码需要精确召回，政策含义需要语义理解
代码仓库文档检索	标量 RAG（BM25）+ 向量 RAG	函数名/接口名精确匹配优先，业务描述需语义检索
医疗病历知识问答	Graph RAG	疾病-症状-药物三元组关系复杂，需要图谱支撑
电商商品推荐语义检索	向量 RAG	用户意图模糊，需要语义相似度而非关键词精确匹配

1.4 产品经理需了解的 RAG 配置参数

Chunk 策略：

- chunk_size：分块大小，太小丢上下文，太大引入噪声

- overlap：相邻块重叠，建议 10-15%，避免语义在边界断裂

- 分块方式：按句子/段落/语义/固定长度，不同文档类型策略不同

检索参数：

- top_k：召回候选数量，生产环境建议 5-20，太多引入噪声，太少漏召关键信息

- 重排（Reranking）：粗召回后通过 Cross-Encoder 模型对候选结果做精准二次排序，优化内容相关性与逻辑顺序，线上生产场景建议标配启用，显著提升问答准确率

- 相似度阈值：低于阈值的结果不注入 Prompt，避免垃圾召回

产品经理控制点：chunk 策略和 top_k 是产品经理可以提业务需求的参数

1.5 常见错误

1、用纯向量 RAG 处理编号/代码查询向量模型把"合同编号A20240101" 和"A20240102" 的相似度打得很高，导致精确检索失效；

2、不做 Reranking 直接把 top-20 全塞进 Prompt 召回 20 条但只有前 3 条相关，模型被后 17 条噪声干扰，回答质量反而下降，且 token 消耗翻 5 倍；

3、Graph RAG 选型后低估构建成本，知识图谱从零构建，1 万条文档可能需要 2-4 周（含实体抽取、关系标注、图谱校验），需注意项目的里程碑时间表；

二、Agent 架构选型

2.1 两大核心模式

模式	定义	适用场景	风险点
Workflow 工作流	固定 DAG（有向无环图），每一步由产品经理/开发预先定义，Agent 按节点执行	步骤可枚举、SLA 要求严格、需要稳定可预测的输出	灵活性差，遇到未覆盖场景需要人工干预
自主规划	Agent 自主 decompose 目标、选择工具、调整策略	步骤无法预先枚举、任务多样、需要动态决策	不可控性高，幻觉风险放大，Token 消耗难以预算

2.2 三大执行模式详解

ReAct（Reasoning + Acting）

流程：Thought → Action → Observation → Thought → Action → ...

特点：

- 每一步先思考（Thought），再执行（Action），观察结果（Observation）后继续

- 思考过程可追溯，便于调试和问题定位

- 单链推理，不支持并发工具调用

适用场景：

- 单任务链式推理（查信息→处理→输出结果）

- 需要可解释性的场景（金融/医疗/合规）

- 工具数量 < 10 的中等复杂度任务

典型失败模式：推理链过长导致"思维漂移"，前几步的上下文被遗忘，越往后越偏离原始目标

Plan-and-Do（规划后执行）

流程：Plan → Step1 → Step2 → Step3 → Aggregate

特点：

- 先完整规划，再按计划执行，不在执行中修改计划

- 规划阶段可以并行化步骤

- 适合长任务分解，避免 ReAct 的中途漂移

适用场景：

- 研究报告生成（先列提纲，再逐节撰写）

- 多步骤数据处理（先设计执行步骤，再执行）

- 需要跨多个数据源整合的分析任务

典型失败模式：计划制定时信息不足，导致后续执行发现计划不可行，需要回溯重规划（但 Plan-and-Do 不支持回溯）

Reflection（反思迭代）

流程：Execute → Critique → Refine → Execute → ...

特点：

- 执行后有专门的"批评者"评估输出质量

- 输出不满足标准时自动触发修改迭代

- 可以配置最大迭代次数（防止死循环）

适用场景：

- 内容生成（文案/报告/代码），需要质量自检

- 数据清洗（初次处理后自检格式/完整性）

- 翻译/改写（反复修改直到满足风格要求）

典型失败模式：批评标准定义模糊，导致 Reflection 无法收敛，触达最大迭代次数仍未满足质量要求

2.3 Agent 选型判断树

2.4 能力接入方式：Skill vs MCP vs Function Calling

这是 AI 产品经理高频面对但缺乏系统认知的选择点。

接入方式	定义	适用场景	注意事项
Function Calling	模型原生支持的结构化工具调用，JSON Schema 定义接口	单 Agent 调用少量外部 API，调用关系简单	工具超过 20 个时模型选择准确率下降；工具描述质量决定调用准确率
Skill	封装好的可复用能力单元，含输入/输出/执行逻辑，可跨 Agent 复用	能力需要在多个 Agent 间共享复用	Skill 的粒度设计是关键：太粗耦合度高，太细调用链过长
MCP	跨 Agent/跨系统的统一通信协议，解决异构 Agent 之间的能力调度问题	多 Agent 协同，需要跨组件调用；系统中存在多种 Agent 框架混用	MCP 是协议层，不是具体实现；引入 MCP 意味着需要专门的协议维护成本
Plugin	外部服务通过插件方式接入，类似 ChatGPT Plugin 形式	向第三方开放能力，或接入第三方能力市场	安全审查成本高，权限控制复杂，不建议在内部系统滥用

核心判断原则：

1）单 Agent 调用少量工具 → Function Calling，最简单

2）多 Agent 共享同一批能力 → Skill，避免重复开发

3）多 Agent 异构协同、跨系统调度 → MCP，统一协议

4）向外部开放能力/接入外部能力市场 → Plugin

三、Multi-Agent 架构选型

3.1 四种协作模式

模式	结构特征	典型场景	优劣分析
串行	A→B→C，前序输出是后序输入	内容生产流水线：搜集→分析→撰写→审核	延迟累积；适合有严格顺序依赖的流程
并行	A、B、C 同时执行，汇聚结果	多角度分析：同时查财务、查舆情、查行业	速度快；要求任务相互独立，汇聚逻辑需要设计
集中分布式	中心 Orchestrator 分配任务给 Worker Agent	复杂任务调度：主 Agent 拆解任务，子 Agent 执行	中心节点是单点瓶颈；适合任务有动态分配需求
协商博弈	多 Agent 各持立场，通过辩论达成共识	决策验证、内容质量评估、方案评审	成本高；适合需要多视角验证的高风险决策

3.2 通信模式选型

通信模式	特征	适用场景	风险
集中式通信	所有 Agent 只与 Orchestrator 通信	流程明确、需要全局状态管理	Orchestrator 成为性能瓶颈
分布式通信	Agent 可以点对点直接通信	高并发、实时协作场景	状态同步复杂，调试困难
广播通信	一个 Agent 向所有 Agent 广播消息	状态变更通知、全局告警	消息风暴风险，需要限流机制

3.3 Multi-Agent 选型判断

任务是否可以并行分解（子任务之间无数据依赖）？

├── 是 → 并行模式，主 Agent 汇聚结果

└── 否 → 有依赖顺序

         ├── 步骤数 ≤ 5，依赖关系清晰？ → 串行模式

         └── 步骤复杂，需动态任务分配？ → 集中分布式（Hub-Spoke）

对结论可信度要求极高（如风控决策、合规审查）？

└── 是 → 在最终决策节点引入协商博弈模式（2-3 个 Agent 各自独立评估）

3.4 业务场景对应方案

业务场景	推荐架构	关键理由
AI 客服 Agent （意图识别→知识检索→回答生成）	串行 Workflow	步骤有严格依赖，每步输出是下一步输入
投资研报生成（公司分析+行业分析+财务分析+撰写）	并行 + 串行混合	三类分析可并行，最终撰写需串行汇聚
代码自动 Review	协商博弈（2 个 Agent：生成者+评审者）	需要多视角验证，单 Agent 自审盲区多
运营调度平台（多业务线任务分配）	集中分布式（Hub-Spoke）	任务类型动态变化，需要中心调度灵活分配
ICP 备案批量审核（多维度并行核查）	并行模式	黑灰产特征/联系方式/内容合规可独立并行核查

四、存储与检索架构选型

4.1 五类存储的职责分工

存储类型	核心职责	典型产品	AI 场景使用场景
向量数据库	存储 embedding，支持高维向量检索（ANN）	Milvus、Qdrant、Weaviate、pgvector	知识检索、语义搜索、相似度匹配
关系型数据库	结构化数据存储，精确查询	MySQL、PostgreSQL	用户配置、会话元数据、业务数据
图数据库	实体关系存储，图遍历查询	Neo4j、TigerGraph、NebulaGraph	知识图谱（Graph RAG）、关系推导
文档数据库	半结构化数据存储，灵活 Schema	MongoDB、Elasticsearch	日志存储、多媒体内容检索
缓存数据库	高频访问数据的低延迟缓存	Redis、Memcached	Agent 短时记忆（Short-term Memory）、Session Cache

4.2 Agent 记忆架构选型

Agent 的记忆系统是 AI PM 容易漏设计的核心组件：

记忆类型	定义	存储方案	PM 关注点
短期记忆	单次会话内的上下文	Context Window 或 Redis	超出 Context 窗口后的截断策略
长期记忆	跨会话持久化的用户偏好/知识	向量数据库（语义检索）	记忆写入条件（何时记、记什么）、记忆老化机制
程序记忆	固化的操作流程和技能模板	关系型数据库或配置文件	技能版本管理，避免旧技能污染新流程
工作记忆	当前任务执行过程中的中间状态	Redis（有 TTL）或内存	任务中断恢复机制

4.3 选型判断要点

问题是语义查询（"帮我找关于退款的规定"）？

└── 是 → 向量数据库必选

查询中涉及精确过滤（用户ID + 时间范围 + 状态）？

└── 是 → 关系型数据库必选，可与向量库组合使用

查询涉及多跳关系推理（"A 的上级是谁的合作方"）？

└── 是 → 图数据库

高频读取，延迟要求 < 100ms？

└── 是 → 加 Redis 缓存层，不要直接查向量库/关系库

五、模型调用方式选型

5.1 四种调用策略

策略	定义	适用场景	成本/复杂度
直接 API 调用	原始 Prompt → 模型 → 输出	通用对话、内容生成	最低
Prompt Engineering	精心设计的 Prompt 模板（Few-shot、CoT、Role Play）	有明确输出格式要求的场景	低，但需要调试时间
RAG 增强	检索外部知识后注入 Prompt	需要引用专业知识、知识时效要求高的场景	中（需要向量库）
Fine-tuning 微调	用业务数据对模型参数做调整	特定领域术语密集、输出风格固定、基础模型效果天花板已到	高（需要标注数据+训练成本+评测）
蒸馏	用大模型生成数据训练小模型	已有大模型效果验证，需要降低推理成本、降低延迟	中（数据生成+训练）
LoRA/PEFT 参数高效微调	只微调少量参数，保留原模型能力	微调需求存在但资源有限；需要快速适配多个垂直场景	中（成本介于全微调和纯 Prompt 之间）

5.2 微调决策门槛

微调启动的判断条件（需要同时满足 3 项以上）：

1）RAG + Prompt Engineering 后，核心指标仍低于目标 10%+

2）已有 ≥ 1000 条高质量标注数据

3）场景的术语/格式高度专有，通用模型表达混乱

4）推理成本/延迟是核心约束，且小模型蒸馏可满足效果需求

5）具备微调基础设施（GPU/训练框架/评测流水线）

5.3 Prompt 工程核心决策

策略	适用场景	示例
Few-shot	输出格式固定，难以用文字描述	给 3 个示例，模型学会输出 JSON 格式
Chain-of-Thought（CoT）	多步推理、数学/逻辑问题	"Let's think step by step" 类指令
角色扮演	需要模型以特定身份/立场输出	"你是一名资深法律顾问，请从法律视角分析..."
结构化输出	下游系统需要解析模型输出	强制模型输出 JSON Schema 合规的结果
负向约束	防止模型输出不期望的内容	"不要编造不确定的信息，如不知道请说'我无法确认'"

六、部署架构选型

6.1 四种部署模式

模式	定义	适用条件	典型代价
公有云 API	直接调用第三方模型 API（OpenAI/通义/文心等）	数据可出内网、无强合规要求、快速验证	数据安全风险；API 不可用时服务中断
私有化部署	模型部署在企业自有/专属服务器	数据涉密、等保三级+、金融医疗政务	GPU 资源成本高；运维复杂度翻倍
混合云	敏感数据本地处理，通用能力调用公有云	部分数据敏感、部分场景需要大模型能力	架构复杂；需要明确数据分级策略
边缘推理	模型部署在终端设备（手机/IoT/工控机）	离线场景、超低延迟、隐私极度敏感	模型大小受限；能力与云端差距大

6.2 部署选型决策树

数据是否可以出企业内网？

├── 否 → 私有化部署（或混合云，非敏感部分用云）

└── 是 → 是否有明确的信创/国产化要求？

        ├── 是 → 使用满足信创认证的国产模型公有云 API

        └── 否 → 可使用全球范围商用 API（GPT/Claude 等）                                但需确认：数据是否涉及个人隐私（GDPR/个保法）？

6.3 推理性能选型要点

场景约束	应对方案
延迟要求 < 1s（实时对话）	流式输出（Streaming） + 小模型或量化模型
延迟要求 < 3s（Agent 工具调用）	并行工具调用 + 异步执行
延迟可接受 > 10s（报告生成）	异步任务队列 + 进度提示
高并发（> 1000 QPS）	模型服务弹性伸缩 + 请求队列 + 降级策略

七、框架与工具链选型

框架与工具链分两个层次：开发框架（代码层，工程师使用）和低代码平台（产品层，业务同学也可参与），两者不是竞争关系，而是面向不同技术能力和复杂度需求的不同选择，也是项目不同阶段验证效果的不同方式。

MVP 阶段优先用低代码平台快速跑通业务逻辑，验证效果后再评估是否需要迁移到开发框架做定制化深化。很多团队在 Dify/Coze 上验证了方向后，才决定要不要用 LangChain/LangGraph 重写核心链路。

7.1 开发框架选型

开发框架面向有 Python/工程能力的研发团队，适合对灵活性和定制性要求高的场景。

框架	核心定位	优势	劣势	最适用场景
LangChain	通用 LLM 应用开发框架	生态最丰富，RAG/Agent/Chain/Memory 全覆盖，社区活跃	抽象层多，调试困难；版本迭代快，升级成本高；过度封装导致黑盒感强	需要快速搭建 Demo、功能覆盖面广的全栈 AI 项目
LangGraph	基于图结构的 Agent 编排框架（LangChain 子项目）	支持有状态的循环 DAG，适合复杂 Agent 工作流；节点/边可视化清晰	学习曲线较陡，概念模型与传统开发差异大	有复杂条件分支、循环回溯的 Agent 工作流；需要精细控制 Agent 执行状态的场景
LlamaIndex	以数据为核心的 RAG/知识检索框架	文档解析、索引构建、Hybrid RAG、Reranking 能力最强	Agent 编排能力弱于 LangChain/LangGraph	知识库问答、文档处理、多路召回融合为核心的项目
AutoGen	微软开源的 Multi-Agent 对话框架	多 Agent 角色协作、代码生成执行、群体辩论能力强	生产环境稳定性相对较低；调试和可观测性较差	研究型场景、代码自动化、协商博弈类 Multi-Agent
MetaGPT	面向软件开发流程的 Multi-Agent 框架	内置产品经理/架构师/开发者等角色，模拟软件团队协作	强绑定软件开发场景，泛用性差；框架较重	AI 辅助软件工程（需求→设计→编码→测试全链路自动化）
自研框架	完全自行构建	完全可控，无框架升级成本，可针对业务深度优化	开发成本极高（通常需要 3-6 个月以上），需要专属维护团队	有 AI 基础设施团队的大厂/平台型产品，对框架有长期规划

开发框架选型判断树：

核心场景是什么？

├── 知识库/文档问答/RAG → LlamaIndex（数据处理能力最强）

├── 通用 Agent/工具调用/快速 Demo → LangChain

├── 复杂 Agent 工作流（有循环/条件分支/状态管理） → LangGraph

├── Multi-Agent 协同（多角色协作/代码执行） → AutoGen

├── 模拟软件开发团队流程 → MetaGPT

└── 平台级/高度定制化/长期演进 → 自研框架（需充分评估成本）

7.2 低代码 AI 开发平台选型

低代码平台面向业务团队主导、技术资源有限或需要快速验证的场景，产品经理和运营同学也能参与搭建和调试。

平台	核心定位	优势	劣势	最适用场景
Dify	开源 LLM 应用开发平台	可视化工作流编排，支持 RAG/Agent/对话应用；可私有化部署；支持多模型切换	高度定制化逻辑难以实现；复杂的 Multi-Agent 编排能力有限	内部知识库问答、AI 助手、Workflow 自动化；需要私有化部署的企业场景
Coze（扣子）	字节跳动 AI Bot 开发平台	插件/工作流/知识库一体，部署到飞书/微信/抖音等渠道极便捷；上手极快	强依赖字节生态，数据在字节云上；深度定制受限；私有化部署能力弱	面向消费者/内容平台的 AI Bot；需要快速部署到社交/即时通讯渠道的场景
FastGPT	开源知识库问答平台	知识库管理和 QA 对话配置简单直观；支持私有化部署；中文生态好	功能相对聚焦，复杂 Agent 编排能力较弱	中小企业知识库问答、客服机器人，技术团队资源有限时的快速上线方案
百炼/文心智能体	国内云厂商 Agent 平台	合规性强，国产化，已有云服务集成便捷，售后有保障	定制灵活性受平台约束；厂商绑定风险	有国产化/合规要求；已在对应云厂商采购服务的企业

低代码平台选型判断树：

是否有私有化部署要求（数据不能出内网）？

├── 是 → Dify（开源，支持私有化）或 FastGPT（知识库场景）

└── 否

    ├── 是否有国产化/合规要求？

            ├── 是 → 云厂商 Agent 平台（百炼/文心智能体等）

            └── 否 → Dify（灵活性和开源生态最佳）

八、向量化（Embedding）模型选型

8.1 三类 Embedding 模型

类型	代表模型	维度	场景
通用 Embedding	text-embedding-ada-002、M3E、BGE	768-1536	通用文本语义检索
多语言 Embedding	multilingual-e5、LaBSE	768	中英混合文本、跨语言检索
领域专用 Embedding	金融/医疗/法律微调版	768	特定领域术语密集场景

8.2 关键决策

1）中文场景：优先选择中文优化的模型（BGE-zh、M3E），通用英文 Embedding 对中文语义表达有损失；

2）私有化场景：自建 Embedding 服务（不能调用 OpenAI embedding API）；

3）领域专用性：如果业务文本中大量使用行业术语（医学/法律/金融），通用 Embedding 会把术语的语义向量打散，需要领域微调；

九、安全与合规架构选型

9.1 四个核心安全设计点

安全维度	具体内容	PM 决策点
内容安全	输入过滤（Prompt 注入防护）+ 输出过滤（有害内容/敏感信息检测）	是否接入内容安全 API？还是自建关键词过滤？安全检测的误拦截率上限是多少？
权限隔离	不同角色/租户只能访问其权限范围内的数据和工具	知识库是否按租户隔离？Agent 的工具调用是否有权限校验？
数据脱敏	进入模型前敏感字段（手机号/身份证/账户）的屏蔽或替换	脱敏在哪一层做（前端/后端/向量化前）？脱敏后是否影响业务逻辑？
审计链	记录模型调用的完整 Input/Output 和 Agent 的工具调用链	审计日志的保留周期？是否需要满足监管留存要求（如金融 5 年）？

9.2 Prompt 注入防护决策

用户输入是否会直接进入 Prompt？

├── 是 → 必须做 Prompt 注入检测（防止用户通过输入控制模型行为）

│         - 简单方案：关键词过滤 + 长度限制

│         - 中级方案：输入意图分类（正常请求 vs 攻击尝试）

│         - 高级方案：独立安全检测模型 + 人工审核队列

└── 否（输入来自内部系统/受控格式） → 可简化安全措施

十、综合选型决策矩阵

当面对一个新 AI 功能需求时，PM 应该用这张矩阵快速定位需要决策的选型点：

选型维度	低复杂度（MVP/小场景）	中复杂度（标准产品功能）	高复杂度（平台级/关键业务）
RAG 方案	纯向量 RAG（快速上线）	Hybrid RAG（兼顾精确+语义）	Graph RAG + Hybrid（多跳推理）
Agent 模式	Workflow（固定步骤）	ReAct（工具调用链）	Plan-and-Do + Reflection
Multi-Agent	单 Agent 即可	串行 2-3 个 Agent	集中分布式 + 并行
能力接入	Function Calling	Skill（可复用）	MCP（跨系统协议）
存储	向量库 + Redis	向量库 + 关系库	向量库 + 图数据库 + 关系库
模型调用	直接 API + Prompt 优化	RAG 增强 + Few-shot	微调 / LoRA（效果天花板到达后）
部署	公有云 API	公有云 API 或混合云	私有化部署（合规强要求时）
框架	MVP：低代码平台（Dify/Coze）快速验证	开发框架（LangChain/LlamaIndex）精细化建设	自研框架 or LangGraph（复杂 Agent）
安全	输出过滤 + 基础日志	输入输出双向过滤 + 权限隔离	全链路审计 + 数据脱敏 + Prompt 防护

十一、AI 产品经理的选型工作规范

11.1 选型文档应包含的内容

1. 背景与约束（合规/成本/工期/研发能力）

2. 候选方案列表（不超过 3 个，已排除不合规/超预算方案）

3. 评估维度与权重（效果/成本/工期/可维护性，权重需要与业务方对齐）

4. POC 验证结论（必须有，不能只靠理论对比）

5. 最终选型结论 + 放弃方案的原因

6. 风险清单（如：向量库版本稳定性、微调数据质量风险）

7. 回退方案（如果选型失败，备选方案是什么）

11.2 产品经理在选型中的责任边界

1）产品经理不应该：自己拍板某个模型/框架的技术参数（这是研发的事）

2）产品经理应该做的

提供清晰的业务约束（上线时间、数据范围、安全要求）
要求研发给出 2-3 个候选方案及 POC 数据
在效果验收标准上做决策（什么样的效果算"达标"）
推动选型决策记录，不要停留在口头讨论