不是Coze不行,是你文档太脏:7步清洗让AI终于答对人话

我把10份PDF丢进Coze知识库，问了一个最简单的问题，结果AI给了我最离谱的答案。

问："照明产品测试周期多久？"

AI认真思考了两秒，答："3个月。"

3个月？那是电池产品的周期。照明产品明明是1个月。

更离谱的是，我连问了5个问题，它答错3个。不是偶尔出错，是系统性乱答。

这篇笔记，记录我花3天踩完所有坑后，总结出的7步救命方案。

一、事情是这样的

朋友做产品检测认证，手里有一堆培训资料：电池、充电桩、照明、ROHS、CCC、国际认证，各种PDF、PPT、Excel。

他想让我帮他搭一个智能客服Bot，客户来咨询的时候能自动回答。

我心想，这还不简单？Coze的知识库功能把文件传上去就行了吧。

结果一测试，傻眼了。

电池产品测试周期是3个月，充电桩是2个月，照明产品是1个月。用户明明问的是"照明产品测试周期多久"，AI有时候却给出"3个月"的答案。

不是AI不聪明，是检索出了问题：同一个"测试周期"的字段，在不同产品里有不同的答案，知识库把多个片段都召回回来了，AI就懵了。

就像你去图书馆借书，书名都叫《测试周期》，但内容讲的是三个完全不同的产品。AI拿到三本书，也不知道该信哪一本。

二、问题的本质：检索阶段缺少约束

一开始我也纳闷，现在的AI模型能力这么强了，怎么连这么简单的问题都答不对？

后来查了一圈才明白：问题不在模型，在检索阶段。

行业里解决这个问题，一般靠元数据标签过滤、知识库拆分、问题路由、检索重排序这些手段。但Coze的普通知识库有个限制：不支持标签或元数据过滤。

也就是说，你不能告诉它"这个问题只查照明产品的资料"。

那怎么办？

我想了很久，最后决定换一个思路：既然平台不支持标签，那就把标签写进正文里，让每个知识块自带"身份证"。

三、我的7步方案

整套方案不是只做"文本清洗"，而是建立一套知识库导入前的处理流程。下面是我实际在用的7个步骤。

第一步：大模型清洗正文

把原始PDF、PPT里的内容提取出来，让大模型重新整理成干净的Markdown格式。

这一步主要做几件事：删除页眉页脚、去掉重复内容、把表格转成Markdown表格、把图片标注出来。

注意：所有价格、费用、报价信息必须彻底删除。Bot不能回答费用类问题，否则容易出错或引发纠纷。

第二步：生成带"身份证"的知识块

这是整个方案的核心。

每个知识块不能只有正文，必须自带上下文信息，回答五个问题：这是什么产品？什么认证？什么标准？来自哪个文件？在第几页？

比如这样：

## 照明产品 - CCC - 测试周期

- 来源文件：照明产品CCC认证型式试验统一要求
- 产品类别：照明产品
- 认证类型：CCC
- 标准编号：原文未标明
- 来源位置：第3页

### 正文

本知识块适用于照明产品的CCC认证测试周期。照明产品的测试周期为1个月。

这样一来，即使Coze不支持标签，正文里也写满了"我是谁"的信息。AI检索到这条内容时，能清楚知道这是"照明产品"的"CCC认证"的"测试周期"。

第三步：生成关键信息索引

知识块是给AI看的，索引是给Bot快速查的。

把所有产品里的事实类信息提取出来，做成一张"标准答案速查表"：测试周期、样品数量、证书有效期、适用标准、适用范围、测试项目等。

索引的作用很明确：用户问的是短问题、事实问题，优先用索引回答，又快又准。

第四步：生成冲突字段报告

最容易乱答的地方，就是"同一个字段，不同产品答案不同"。

我把这些冲突点全部列出来，生成一份冲突字段报告：

字段	照明产品	充电桩	电池产品
测试周期	1个月	2个月	3个月

这份报告有两个作用：一是提醒我自己哪些地方最容易出问题；二是给Bot的系统提示词提供依据，让它知道"这里需要谨慎"。

第五步：生成人工复核清单

大模型清洗不能完全信任，得把低置信度的内容标出来。

以下情况必须人工复核：产品类别没识别出来、标准编号缺失或疑似不完整、原文里有"通常、一般、约、视情况"这类模糊表述、图片或扫描件没识别出来。

这就像工厂里的质检环节，机器筛一遍，人再过一遍，双重保险。

第六步：生成建议测试问题

知识库导入后必须测试，否则不知道清洗有没有效。

我设计了几类测试问题：

明确产品的问题（"照明产品测试周期多久？"）
明确标准的问题（"CCC认证需要什么资料？"）
同名字段冲突问题（"测试周期多久？"应该追问产品类别）
信息不足的问题（"这个标准适不适用我的产品？"）

每道题都配了期望答案和风险类型，测完就知道哪里还有漏洞。

第七步：修改Coze Bot的系统提示词

资料清洗解决的是"怎么进库"，系统提示词解决的是"怎么查、怎么答"。

我给Bot设了几条硬规矩：

专业知识类问题必须基于知识库回答，不能自己编。
用户明确说了产品，只答该产品，不能混用。
事实类问题优先查关键信息索引。
用户没说清楚产品，而知识库里有多个答案时，必须追问，不能猜。
不回答任何价格、费用、报价类问题。
每句话尽量带上来源文件和来源位置。

这几条规则写在系统提示词里，Bot就会按这个逻辑来。

四、一句话总结

在Coze普通知识库不支持标签的情况下，必须把"标签、索引、冲突控制、追问规则"前置到资料清洗和系统提示词里，才能显著降低乱答风险。

说白了，就是平台不支持的事，你自己用流程补上来。

五、写在最后

这篇方案是我帮朋友做项目时实打实踩出来的。47岁从零开始学AI，最大的感受就是：很多时候不是技术有多难，是你不知道坑在哪里。

你永远不知道今天学的东西，会在哪一天派上用场。 就像我当年无意中考了个高级程序员证，没想到后来面试大厂时帮了大忙。

如果你也在用Coze做知识库，或者你在其他AI工具上踩过类似的坑，欢迎评论区聊聊，我会挨个回复。

如果你自己放弃了自己，没人能救你。但如果你还在学，路就在前面。

我是Billy，47岁从公司离职，正在用AI重新开始。
如果你也在某个路口犹豫不决，关注我，看看一个普通人怎么走这条路。