AI 原生产品设计思考—让软件更靠近业务现场-夜雨聆风

AI 原生产品设计思考—让软件更靠近业务现场

过去一段时间，团队正处在公司产研AI化转型和经营管理AI化转型的交叉点上：一边推动内部研发方式 AI 化，一边深入营销、运营、客服等业务现场，尝试把真实流程重新做一遍 AI 化改造。

越往一线走，越能感受到一个问题：过去倾团队之力建设的全链路履约系统，从 CRM 到运营、供应链、实施，再到末端财务系统，确实解决了流程留痕、财务合规和数据归档问题，但对业务过程、收入增长和效率提升的帮助还不够直接。

很多时候，系统只是给业务提供了一个更规范的表单入口。业务真正发生的地方，其实在客户沟通、会议纪要、合同附件、报价材料、微信群和飞书消息里。

这也是 AI 原生产品最值得讨论的地方。它不应该只停留在“加一个智能助手”，而要重新回答一个更底层的问题：软件如何理解业务、承接业务，并把业务现场的一手信息转成可执行、可追溯、可复用的结果。

传统软件的核心矛盾：系统追求确定，业务持续变化

做过传统系统的人，无论是使用者还是开发者，大多都会有一个直观感受就是好难用。究其原因问题不在交互体验或系统性能上，而在于系统和业务的运行方式并不一致。

系统建设需要确定性。需求要清晰，流程要闭环，字段要齐全，口径要统一。只有这些前提稳定下来，代码才能被开发、测试、上线和维护。

而业务团队每天面对的是变化。客户在变，市场在变，对手在变，政策在变，公司内部的组织和管理逻辑也在变。业务的价值，恰恰来自在变化中寻找机会。

于是，一个很典型的矛盾就出现了：

业务侧觉得系统跟不上业务；
产研侧觉得需求总在变化，无法稳定交付；
系统刚上线，业务打法已经进入下一轮调整；
流程越规范，一线越觉得被系统约束。

传统软件的底层逻辑，是用确定性的代码、流程和字段去承载持续变化的业务现实。这套逻辑在财务、合规、审批、权限、交易记录等场景里非常有效，但一旦进入销售推进、客户成功、服务交付这类高变化、高语义密度的场景，传统系统很难覆盖。

传统软件的两个隐含假设，正在崩塌

为什么传统软件只能这么做？因为它建立在两个一直没被挑战过的假设上。

假设一：业务可以被字段和流程完整描述

传统软件相信，只要把字段建对、流程定清，业务就能装进系统。

但客户真实的样子是什么？是邮件里的一句”预算可能要砍 30%”，是销售会议上的一句”对方 CTO 对集成方案有顾虑”，是合同附件里手写的一行备注，是聊天群里转手三次的一张报价截图。

真正承载业务语义的，从来都是非结构化数据。而结构化字段，只是经过人脑加工、人手录入之后的二手摘要。

假设二：非结构化数据靠人来处理

既然系统看不懂这些非结构化信息，那就让人来翻译——销售补录、CSM线下各种盘点会、PM 整理纪要。

结果就是大家都熟悉的那个困局：

一线觉得系统是负担；
管理层觉得数据不可信；
数据团队在系统外重新清洗一遍；
每个人都在做”信息转译”，没有人真正在做业务。

这也是大多业务团队的困局，Day.ai的团队对传统 CRM 的判断很犀利：”只要录入这个动作依赖人，数据就天然滞后、失真、缺失。”——这句话对所有流程类系统都成立，当然不止 CRM。

这两个假设之所以一直没被挑战，不是因为没人发现问题，而是因为过去没有可行的替代方案，非结构化数据处理成本太高，模糊业务需求很难被软件直接消化。直到 LLM 出现。

AI 改变了两条关键成本曲线

AI 原生产品的机会，不只来自模型能力提升，更来自两类成本的大幅下降。

第一，非结构化数据处理成本大幅下降

过去要从合同里抽取关键条款，从会议中提炼承诺点，从沟通记录里识别客户意图，主要依赖人工整理或规则引擎。人工整理贵、慢、难以规模化；规则引擎覆盖率低，面对复杂语境很脆弱。

LLM 把非结构化数据变成了系统可以直接处理的一手原料。邮件、会议、聊天、图片、文档、表格，都可以被提取、摘要、归类、比对和结构化。

这件事对软件非常关键。因为系统终于可以更靠近业务现场，而不是只接收人手工录入后的二手结果。

第二，模糊需求的实现成本大幅下降

传统软件要处理一件事，通常要先把需求翻译成明确规则：如果 A 且 B，就触发 C。对于依赖经验、存在例外、判断口径不稳定的需求，传统软件要么做得很重，要么很难做好。

LLM 让系统具备了处理模糊输入的能力。带歧义的描述、带例外的判断、带上下文的任务，可以先由 AI 做理解、归纳和建议，再通过规则、工具、权限、评测和人工确认来约束结果。

这意味着产研团队不再需要把业务的不确定性全部提前翻译成代码逻辑，才能开始交付价值。很多过去只能通过定制开发解决的需求，现在可以先通过 Prompt、Skill、样本、工具调用和评测体系快速验证。

AI 原生产品的核心：在业务现场和系统之间增加一层语义能力

把 AI 原生产品放到组织里看，它最有价值的位置，是业务现场和既有系统之间的“语义能力层”。

业务现场充满非结构化信息：客户沟通、会议纪要、合同、报价单、服务记录、群聊、截图。和既有系统承载交易、财务、流程、权限、审计和经营口径。过去连接两者的方式，主要依赖人工录入、人工整理和人工判断。

AI 原生产品的价值，就是把这段长期依赖人的语义工作，逐步变成系统能力。它主要做四件事：

理解：从沟通记录、文档和多模态材料中提取业务语义；
调用：连接 CRM、ERP、工单、运营、知识库等系统，补齐结构化事实；
输出：生成可读、可追溯、可被下游复用的业务结果；
反馈：把人工修正、异常案例和业务规则沉淀为样本与评测集。

这一层不承担财务、交易、审批等强确定性职责，也不替人做最终业务决策。它更像一层业务理解和任务编排能力，把过去散落在人脑、表格、会议和群消息里的信息整理出来，变成系统可以继续处理的输入。

更重要的是，它让系统迭代变轻了。过去一次系统调整，往往要经历“需求-PRD-技术方案-开发-测试-上线”的完整链路；而现在很多能力直接可以通过补充样本、优化规则、调整 Prompt、编排工具链、更新评测集来演进。业务变化进入系统的路径更短，系统对一线反馈的响应也更快。

AI 原生产品落地的三层能力

把上面的逻辑放到具体产品里，通常需要三层能力支撑：先在业务场景中验证价值，再通过平台降低构建成本，最后用工程化能力保障稳定运行。

第一层：业务应用，用真实场景验证价值

早期调研过一款AI原生产品Day.ai ，它是这一层的典型代表。传统 CRM 通常先定义字段，再要求销售把过程填进去。Day.ai 的切入点更靠近销售现场：优先接入邮件、日历、会议、Slack 等承载销售行为的非结构化通道，用 LLM 识别客户意图、预算变化、阻塞点、承诺事项和下一步动作，再组织成 CRM 的结构化对象。

它的价值在于减少“录入”这段低价值劳动。销售继续按自己习惯的方式推进客户，系统在后台完成观察、理解、整理和沉淀。CRM 的数据来源也因此发生变化：从人工补录的二手摘要，逐步变成系统基于真实沟通自动生成的一手业务信号。

第二层：构建平台，降低 AI 应用开发成本

业务场景验证价值之后，第二个问题很快就会出现：类似的 AI 应用能不能快速复制出来？

CodeBanana 这类 AI 原生开发基础设施，解决的就是应用构建效率问题。当业务团队不断提出新的智能任务时，产研不能每次都从零开始搭建Skill、工具调用、Prompt 编排、上下文管理、RAG、评测和可追溯输出。

这类基础设施的意义，是压低业务侧新增智能任务的边际成本，把 AI 应用开发变成可组装、可复用、可治理的能力。业务每提出一个新的智能任务，产研都可以基于已有工具、上下文协议和评测体系快速搭出新的 Skill 或 Agent，减少重复建设，也降低试错成本。这里提到的外部产品主要是方便大家查资料，我们在实际工作中使用的是自建平台。

第三层：生产运行，让 AI 能力稳定进入业务流程

应用搭出来之后，还要回答第三个问题：它能不能稳定进入真实业务流程？

仅有模型、Prompt 和工具调用还不够。企业真正需要的，是一套能上线、可运维、可追踪、可持续优化的 AI 运行体系。

这套体系要解决几个关键问题：

任务如何被拆解和编排；
执行过程中的状态、上下文和中间结果如何保存；
工具调用如何受到权限、审计和安全规则约束；
执行失败后如何重试、回滚或转人工；
输出结果如何评测，错误如何复盘；
一线反馈如何进入下一轮优化。

只有补齐这些能力，AI 才能从演示场景进入真实业务流程。未来企业真正需要的，不只是一个“能回答问题的工具”，而是围绕某个业务目标持续运行、可控制、可度量的智能系统。例如销售、运营、实施、客服等场景，都有机会从人工协作流程，逐步演进为高自治的业务系统。它们不追求“无所不能”，更关注在一个具体业务闭环里稳定交付结果。

范式变化：从交付功能到运营能力

产品形态变了，生产它的组织方式也会跟着变化。传统软件的协作重心是把需求交付成稳定功能，AI 原生产品的协作重心则进一步延伸到任务定义、上下文建设、结果评测和持续反馈。

这意味着产研和业务的关系会发生变化。业务不再只是提出需求、等待验收；产研也不再只是把需求翻译成页面、接口和流程。双方需要一起把业务经验、数据来源、工具能力和反馈样本沉淀成可持续演进的系统能力。

设计起点：从流程页面转向任务上下文

传统软件通常从业务流程、角色权限、页面表单、字段和报表开始设计。

AI 原生产品更适合从用户要完成的任务开始，再往下拆解几个问题：完成任务需要哪些上下文，哪些系统和工具可以调用，输出结果如何追溯，结果质量如何评测，用户反馈如何回到系统里。

组织分工：业务专家进入系统建设过程

传统模式里，业务提出需求，产品经理整理方案，研发实现功能，测试验证流程，业务最后验收。

AI 原生模式下，业务专家需要更早、更深度地参与进来。很多判断规则、异常案例和隐性经验，只有一线团队最清楚。这些内容不能只停留在口头经验里，而要被整理成样本、规则、知识和评测标准。

产品经理：定义任务边界、用户目标和人机协作方式；
业务专家：把隐性经验、判断规则、异常案例、领域知识沉淀为样本、规则和知识库；
数据工程师：治理数据源、权限、字段映射和质量；
AI 工程师：设计 Prompt、Agent、工具调用、RAG、评测集；
后端工程师：实现 MCP、工具接口、审计、权限、服务编排；
评测团队：把准确率、遗漏率、幻觉率变成可观测指标；
一线用户：持续反馈，把修正沉淀回样本和规则。

在真实场景中，团队资源往往没有这么理想。很多时候，产品和研发不仅要完成原本的工作，还要共同承担 AI 工程、数据治理和评测工作。这个过程中，产品和研发的边界会变得更模糊，协作也会更紧密。

这也表明，如果公司要系统化推进 AI 原生产品，就不能只靠单点探索，需要把工具接入、评测体系、数据治理和平台能力逐步沉淀下来，并尽量产品化为业务专家可以直接使用的能力。这样，业务经验才能更快进入系统，产研也能从重复配置和临时支持中释放出来。

评价标准：从功能上线转向结果可用

传统软件主要看录入率、流程完成率、系统活跃度和报表准确性。

AI 原生产品更关注结果是否真的可用：

任务是否完成；
结论是否有来源；
输出是否被一线采纳；
人工处理时间是否减少；
错误是否能被发现和修正；
结果是否能被下游系统或 Agent 复用。

这些指标更接近业务结果，也更能说明 AI 原生产品是否真的创造了价值。功能上线只是开始，结果被使用、被验证、被持续修正，才是能力形成的过程。

迭代方式：从版本发布转向样本驱动

传统系统的迭代单位是版本。业务有变化，需要提需求、排期、开发、测试、上线。

AI 原生产品的迭代单位会更细。一次人工修正、一个失败案例、一批黄金样本、一条新规则，都可能推动系统能力更新。很多优化不一定要等到下一个版本发布，而是可以通过样本补充、规则调整、提示词优化、知识库更新和评测集回归逐步完成。

这会让业务变化更快进入系统，也会让产研从“功能交付”逐步转向“能力运营”。后者要求团队持续观察系统表现，持续吸收一线反馈，持续把业务经验沉淀为可复用能力。

落地路径：先把一个真实任务做深

AI 原生产品落地时，最怕一开始就把目标做得太大。比较稳妥的做法，是先选择一个真实、高频、边界清晰的业务任务，把它做成可验证、可复盘、可持续优化的能力；这个任务跑通之后，再把共性的上下文、工具、规则、评测和反馈机制沉淀出来。

选场景：优先选择高频、重复、信息分散、依赖经验、结果可验证的任务；
定任务：先定义 AI 要帮助用户完成什么任务，而不是先设计页面；
定上下文：明确完成任务所需的最小信息集合，标注不同信息源的权威等级；
接工具：把 CRM、ERP、工单、运营、文档系统等能力封装成 AI 可调用的工具；
定规则：明确数据权威性、冲突处理、引用来源、禁止臆造和人工兜底点；
定输出：输出要结构化、可追溯、人能读，也能被下游系统或 Agent 继续使用；
建闭环：通过黄金样本、评测集和一线修正机制，让业务反馈持续推动能力演进。

这里有两条红线原则：关键结论必须可追溯，错误必须能沉淀为样本。少了这两条，AI 原生产品很容易停留在“演示效果很好，真实使用很难”的阶段。

结语：让业务变化持续沉淀为系统能力

回到最开始的问题：AI 原生产品到底应该长什么样？

我的理解是，它应该成为业务现场和既有系统之间的一层语义能力。它能理解非结构化信息，调用已有系统，生成可追溯输出，并通过样本和反馈持续修正自己。

这件事真正改变的，是业务进入系统的方式。

过去，业务变化要先被人理解，再被产品经理整理成需求，再由研发翻译成代码，最后进入系统。这个链路长、损耗大，也很难跟上业务变化。现在，客户沟通、会议纪要、服务记录、异常案例和一线修正，都有机会更快进入系统，变成上下文、规则、知识、评测样本和可复用能力。

AI 原生产品的价值，不只是提升单点效率，更在于让企业把过去散落在人、文档和沟通工具里的经验，沉淀成可追溯、可复用、可持续优化的系统能力。

对产研团队来说，交付物会从页面、流程和接口，扩展到 Skill、Agent、上下文协议、MCP、工具链、知识库和评测集。对业务团队来说，参与方式也会从“提需求、等上线、做验收”，转向持续提供知识库、样本、规则和反馈。

这也是我们当前 AI 化实践最大的启发：最值得投入的方向，是让系统持续吸收业务、理解业务，并把业务变化转化为可以运行、可以评测、可以复用的组织能力。