AI智能体嵌入现有系统,工程和算法的分工如何划分?

上周加入的这个项目——把一个AI智能体嵌入到现有工具的流程里，项目属于一期上线，新需求、优化、推广支持同步进行。

一开始我觉得分工应该很自然：工程负责老系统，算法负责智能体，接口一对就完事。但实际干下来发现，事情没那么想象中的简单。这类项目和从零搭一个AI产品不同，它有一层老系统在，很多工作天然落在两边中间，边界比想象中模糊得多。

花了一周时间跟两边分别聊，并结合我收到的项目资料，我整理出一个三层分工框架，记录一下。

一、为什么"嵌入型Agent"项目的分工特别容易模糊？

先说背景。市面上大部分AI项目的分工讨论，都是"从零建一个AI产品"的场景。但企业实际落地时，更常见的是另一种模式：把AI智能体嵌入到一个已经在跑的系统里。

这种模式有个特点——工程团队不是新拉的，他们对老系统非常熟，但对智能体的技术栈不太了解；算法团队对模型和Prompt很在行，但对老系统的架构、数据流、业务约束知之甚少。

两边各有一半信息，谁都没法独立把事情做完。而"中间地带"的工作项——比如智能体返回结果怎么解析、工具描述文本谁来写、业务规则怎么喂进Prompt——往往两边都觉得"不归我"或者"对方应该先出"。

这就是我说的分工模糊。不是谁推责，而是确实没人提前定义过这些交叉项。

二、我的三层分工框架

我试着把项目里的工作项分成三层。不是按"谁的技术栈"来分，而是按"这件事最终影响的是什么"来分。

这一层的核心问题是：智能体怎么稳定地接入现有系统？

这一层的交付标准相对明确：接口通不通、异常能不能兜住、监控看得到看不到。工程的判断依据是"系统跑没跑起来"。

这一层的核心问题是：智能体本身表现得好不好？

工作项	具体内容
Prompt体系	系统Prompt设计、多轮对话的上下文管理、角色设定
RAG知识库	文档切分策略、Embedding选型、检索质量调优
工具调优	Tool Schema的语义描述，让模型更准确地选择和使用工具
模型选型	用哪个模型、参数怎么配、温度和Top-P怎么设
输出评估	回答准确率、忠实度、格式合规性的系统评估

这一层的交付标准是"效果好不好"——回答准不准、工具调得对不对、用户满不满意。算法的判断依据是模型层面的评估指标。

这是最容易被忽略、也是最容易出问题的地方。

这一层没有简单的"归谁"，需要逐项确认谁先出初稿、谁审核、谁最终定版。

一个判断原则： 如果这个工作项的变动会影响模型输出质量，算法必须参与；如果变动会影响系统稳定性，工程必须参与。两边都影响的，就两边都坐到一起定。

不是替两边做决定，而是拿着这个框架去做三件事：

逐项确认归属。对着框架里的每一项，跟双方确认：谁主责、谁配合、交接标准是什么。写下来，不要只口头说。
盯住第三层。第一层和第二层通常不会漏，工程做系统对接、算法做Prompt优化，各自都很清楚。容易漏的是第三层——那些"两边都觉得对方会做"的事情。PM的价值就是把这些空白地带变成明确的责任项。
建立变更同步机制。任何一方改了接口定义、Prompt结构、数据格式，对方必须同步知道。不需要PM来做技术决策，但PM要确保信息不丢。

给自己整理了一份项目启动时用的检查清单，逐项跟两边过一遍：

这类项目最大的坑，往往不是技术本身有多难，而是两边都以为对方在做、结果谁都没做的那些空白地带。PM能做的，就是在开工前花足够的时间，把这些地带一条一条摊开来，变成有人负责、有人验收的明确事项。