信任链断裂:一个售前 AI 助手从 Demo 到废弃的完整复盘

信任链断裂：一个售前 AI 助手从 Demo 到废弃的完整复盘

做一个售前配置助手，听起来是一个天然适合大模型的任务。

客户说："我需要 20 台 6U 机架式服务器，支持 GPU 加速，万兆网络，能跑虚拟化。"

你有一整套产品手册、规格参数、选配清单。模型读进去，吐出一个配置单——CPU 型号、内存容量、网卡规格、电源功率，全部匹配客户需求。售前工程师拿过来跟产品手册比对，没错。下单。

然后配置单进了生产系统。

然后生产线的电话打回来了。

"这个内存条三个月前就停产了，AVL 里没有替代。"

"这个型号的 GPU 转接卡跟你们选的机箱不兼容，线缆长度不够。"

"物料拆到一半发现不齐套，缺高速线缆，这批要延期。"

这是同一个项目，同一个 Demo 跑出"看着都对"的结果。

现在，这个系统已经没人用了。连最基础的查询功能也起不来。

这是一个典型的、但不是偶然的失败。

它不是死在大模型不够强。它是死在信任链的构建方式上。

一、Demo 为什么能过？

因为这个系统的"验证"方式，在逻辑上是一次同义反复。

客户需求匹配的是什么？是产品手册里的描述。

售前工程师验证的依据是什么？也是产品手册。

模型输出"CPU：XXXX 型号，32 核，2.5GHz"。产品手册上查得到这个型号。售前工程师看了一眼，确认无误。通过。

这就是问题。

产品手册是什么？它在本质上是一份"应该能"的陈述，不是一份"我能"的陈述。它告诉你这个型号的 CPU 标称参数是多少，但它不告诉你这个 CPU 在当前采购周期里 AVL 状态是什么——有没有过认证、生命周期处于哪个阶段、替代料有没有准备好。

手册是静态的。AVL 是动态的。

手册是孤立的。而一套可生产的配置是耦合的——CPU 选了这个型号，对应的主板就得是那个型号，对应的散热方案就得是另一个，对应的线缆长度就不是通用的。

Demo 阶段验证的是"手册与手册一致"。这不是验证。这是两本同一来源的说明书在互相确认对方"写对了"。而当这个"来源"本身就不可靠——手册里有夸大宣传、有过时信息、有"理想工况"下才成立的参数——整个验证链条建立在沙滩上。

这个系统从第一天起就没有接触过真相。它接触的是真相的一个宣传版本。

二、产线为什么炸了？

因为产线接触的是物理世界。而物理世界不会替你"补全"缺失的约束。

一个配置单从"推荐"到"可生产"，中间要过多少道关卡？

AVL 校验。你选的那个内存条，供应商还在供货吗？样品测试过了吗？适配验证跑完了吗？这些不是静态属性，是一个持续演进的状态链条。任何一个节点的状态变了，整个器件的"可用性"就变了。

物料齐套。你列出来的物料清单，能不能在同一个采购周期内全部到位？有没有哪个部件还是"工程样品"阶段，交期是十六周？物料不齐套，生产线开不了工——这不是"规格问题"，这是"时间与供应链问题"。

兼容性耦合。选了一个大功率 GPU，机箱散热方案要不要改？功率预算还够不够？高速线缆的长度够得到背板吗？这些约束是跨部件的——改一个，等于改一串。

这个系统对这些关卡的处理方式是什么？

它没有处理。它把它们留给了"售前确认"。

售前工程师的确认，本质上是一个签字。他手里没有 AVL 查询工具，没有物料齐套计算引擎，没有线缆兼容性检查器。他唯一能做的，是用自己的经验和产品手册再做一次比对——而手册和 AVL 之间，隔着样品申请、测试验证、供应商认证、小批量试产整整一个流程的距离。

签字的人没有验证能力。有验证能力的人不在流程里。

这不是人的问题。这是架构把验证责任放在了验证能力够不到的环节。

三、为什么不只是"模型的问题"？

有人会听完这个故事后得出一个结论：模型不够强，需要更好的领域数据。

这个结论解释了问题的一小部分，但错过了问题的本质。

假设你把产品手册换成了 AVL 数据库，把参数表换成了实时物料状态，模型就能解决问题吗？

不能。因为 AVL 的验证不是一次知识查询，是一套需要执行的动作——查供应商状态、跑样品测试、做适配验证。这些东西不是"文本理解"能替代的。它们需要一个独立的、确定性的执行引擎。

再假设你用了最先进的多模态大模型，它能解释电路图、能读 BOM 表、能用 CoT 推理器件兼容性——它能解决问题吗？

还是不能。

因为一个配置的"可生产性"不是由单一推理路径决定的。它取决于多个外部系统的状态：ERP 里的库存、PLM 里的生命周期、供应商的交付承诺。这些状态的组合具有爆炸性的复杂度。一个概率系统试图在不完整的、动态的信息空间里做确定性的工程决策——它不是在解决问题，它是在赌博。

这个案例犯的错，不是"模型选错了"。而是在一个应该用 Harness 架构的场景里，选择了让 LLM 直接跑全程。

四、用 OPLA 做一次尸检

如果在这个项目第一天，有人用 OPLA 四要素来审视它，会看到什么？

O — Object。什么是"一个可交付的服务器配置"？

在项目的认知里，"配置"是一份参数列表。在物理世界里，"配置"是一套有 AVL 状态的、物料齐套的、兼容性自洽的、可被产线执行的 BOM。

这两个定义之间，差了一整套约束系统。

一个正确的 Object 定义应该是："一组通过 AVL 校验、物料齐套性检查、兼容性验证的器件组合。"如果这个定义在第一天就写下来了，立刻就会发现：系统推荐出来的东西，没有任何机制证明它满足这个定义。

P — Property。AVL 状态是一个属性吗？

如果是，它是什么类型？它是"可用/不可用"的布尔值？还是"已认证/样品阶段/EOL"的枚举？还是"需要 XX 部门签核"的工作流状态？

不管它是什么类型——在当前的系统里，它没有被建模。没有建模，就不参与计算。不参与计算，系统就不知道什么能选、什么不能选。

L — Link。配置里的器件之间，依赖关系是什么？

选了这个 CPU，主板就被约束了。选了主板，机箱就被约束了。选了 GPU，电源和散热就被约束了。这些关系不是"可选建议"，是物理与工程的确定性。

在 Demo 阶段，这些关系被隐藏在"产品手册描述"的语义近似里。到产线阶段，它们以"物料不齐套""线缆不够长"的方式报复回来。

A — Action。"验证这个配置是否可生产"是一个 Action 吗？

在项目设计里，它是售前工程师的一个点击确认。

在工程系统里，它应该是一组可自动执行的校验程序——AVL 校验、物料齐套校验、兼容性校验、交期可行性校验。每一项都是一个独立的、可由代码调用的 Action。全部通过，配置才叫"可用"。

四个要素，这个项目在每一个上都有缺口。而这四个缺口是互锁的——缺了 Object 的准确定义，Property 就建不对；缺了 Property，Link 就推不下去；缺了 Link，Action 就不知道要校验什么。

最后所有缺口在产线汇聚，以"改配置"的形式一次清算。

五、连查询也死了——这才是最该警惕的信号

一个很多人会忽略的细节：这个项目不仅推荐功能废了，连最基础的查询功能也起不来了。

为什么？

因为查询和推荐共享的是同一套数据。当推荐结果在产线被反复推翻之后，售前工程师对系统的信任就已经归零了。他不会说"推荐不行，但查询我还用"。他会说"这个系统不准"。

信任是不可切分的。

当你让 LLM 在一个不可靠的数据基础上做任何输出——不管是推荐、查询还是问答——用户不会去甄别"这次的结果是可验证的，那次的不行"。他们只会记住一件事：这个工具给出的东西，到产线可能会错。

一次错，就够了。

这就是为什么 Harness 框架反复强调一件事：LLM 只负责提出方案，不负责验证方案。 验证必须交给一个独立的、确定性的系统。不是因为 LLM 不可靠——是因为信任一旦被破坏，修复成本远高于建设成本。

六、这个案例的深层教训

大多数人听完这个故事，第一反应是"把数据做好就行了"——把 AVL 接进来，把 BOM 结构化，把兼容性规则写清楚。

这些都对，但不够。

这个案例的深层教训不在数据层，在架构层。它暴露了工业 AI 系统设计中最根本也最被低估的一个原则：

你的 AI 系统的可信度上限，不超过你的验证系统的可信度。

而验证不能由 LLM 自己完成。不能外包给"人看一眼"。不能被缩写成 Prompt 里的一句"请确保配置合理"。

验证必须是一个独立于模型的、可自动执行的、每一次都运行的硬节点。它不听解释，不接"差不多"，不因为上一个配置跑通了就豁免下一个。"约束没满足，就是没满足，输出必须打回去"——这句话我在 Harness 那篇文章里写过，而这个案例就是它的反证。

更残酷的一个判断是：如果你的验证系统不可靠，那么 AI 不仅不是资产，它是负资产。 因为它在以远高于人类的速度、在更广的覆盖面上，批量生产不可信的结果。

一个人做错一单配置，影响一个订单。一个 AI 做错一批配置——在没有独立验证的情况下——影响的是整条信任链。

七、如果重来一次

如果是我来重新设计这个系统，我会做三件事。

第一，把数据源从产品手册换成结构化工程数据。 不是把 PDF 喂给模型，而是把 AVL 状态、物料交期、兼容性约束、生命周期信息建模进本体。手册是表象，本体才是基础。

第二，把"推荐"和"验证"拆成两个独立系统。 LLM 只负责理解客户需求、生成候选配置方案。但方案能不能下到产线，由独立的约束求解和校验引擎说了算。AVL 状态、物料齐套、线缆兼容性——每一项都是一个硬校验。全部通过，配置单才允许流出。

第三，用 OPLA 建模整个配置域。 一个"配置"不是一个参数列表——它是一个 Object，带着可计算的 Property、可推导的 Link、可自动执行的 Action。定义清楚这些，系统才知道自己不知道什么。知道不知道，比假装知道，是更高一级的工程能力。

把一句话留在这个案例的结尾：

如果你的 AI 输出的东西，到产线还需要"再确认一遍"，那它的输出就不是工程结果。它是一个高级一点的搜索建议。

产线不需要建议。产线需要可执行的、一次对的、倒了能追责的决策。

作者提示：本文案例已脱敏处理，关键事实来自真实的工业 AI 项目复盘。讨论的是架构模式，不指向任何企业或产品。