我把10份PDF丢进Coze知识库,问了一个最简单的问题,结果AI给了我最离谱的答案。
问:"照明产品测试周期多久?"
AI认真思考了两秒,答:"3个月。"
3个月?那是电池产品的周期。照明产品明明是1个月。
更离谱的是,我连问了5个问题,它答错3个。不是偶尔出错,是系统性乱答。
这篇笔记,记录我花3天踩完所有坑后,总结出的7步救命方案。
一、事情是这样的
朋友做产品检测认证,手里有一堆培训资料:电池、充电桩、照明、ROHS、CCC、国际认证,各种PDF、PPT、Excel。
他想让我帮他搭一个智能客服Bot,客户来咨询的时候能自动回答。
我心想,这还不简单?Coze的知识库功能把文件传上去就行了吧。
结果一测试,傻眼了。
电池产品测试周期是3个月,充电桩是2个月,照明产品是1个月。用户明明问的是"照明产品测试周期多久",AI有时候却给出"3个月"的答案。
不是AI不聪明,是检索出了问题:同一个"测试周期"的字段,在不同产品里有不同的答案,知识库把多个片段都召回回来了,AI就懵了。
就像你去图书馆借书,书名都叫《测试周期》,但内容讲的是三个完全不同的产品。AI拿到三本书,也不知道该信哪一本。
二、问题的本质:检索阶段缺少约束
一开始我也纳闷,现在的AI模型能力这么强了,怎么连这么简单的问题都答不对?
后来查了一圈才明白:问题不在模型,在检索阶段。
行业里解决这个问题,一般靠元数据标签过滤、知识库拆分、问题路由、检索重排序这些手段。但Coze的普通知识库有个限制:不支持标签或元数据过滤。
也就是说,你不能告诉它"这个问题只查照明产品的资料"。
那怎么办?
我想了很久,最后决定换一个思路:既然平台不支持标签,那就把标签写进正文里,让每个知识块自带"身份证"。
三、我的7步方案
整套方案不是只做"文本清洗",而是建立一套知识库导入前的处理流程。下面是我实际在用的7个步骤。
第一步:大模型清洗正文
把原始PDF、PPT里的内容提取出来,让大模型重新整理成干净的Markdown格式。
这一步主要做几件事:删除页眉页脚、去掉重复内容、把表格转成Markdown表格、把图片标注出来。
注意:所有价格、费用、报价信息必须彻底删除。Bot不能回答费用类问题,否则容易出错或引发纠纷。
第二步:生成带"身份证"的知识块
这是整个方案的核心。
每个知识块不能只有正文,必须自带上下文信息,回答五个问题:这是什么产品?什么认证?什么标准?来自哪个文件?在第几页?
比如这样:
## 照明产品 - CCC - 测试周期
- 来源文件:照明产品CCC认证型式试验统一要求
- 产品类别:照明产品
- 认证类型:CCC
- 标准编号:原文未标明
- 来源位置:第3页
### 正文
本知识块适用于照明产品的CCC认证测试周期。照明产品的测试周期为1个月。
这样一来,即使Coze不支持标签,正文里也写满了"我是谁"的信息。AI检索到这条内容时,能清楚知道这是"照明产品"的"CCC认证"的"测试周期"。
第三步:生成关键信息索引
知识块是给AI看的,索引是给Bot快速查的。
把所有产品里的事实类信息提取出来,做成一张"标准答案速查表":测试周期、样品数量、证书有效期、适用标准、适用范围、测试项目等。
索引的作用很明确:用户问的是短问题、事实问题,优先用索引回答,又快又准。
第四步:生成冲突字段报告
最容易乱答的地方,就是"同一个字段,不同产品答案不同"。
我把这些冲突点全部列出来,生成一份冲突字段报告:
这份报告有两个作用:一是提醒我自己哪些地方最容易出问题;二是给Bot的系统提示词提供依据,让它知道"这里需要谨慎"。
第五步:生成人工复核清单
大模型清洗不能完全信任,得把低置信度的内容标出来。
以下情况必须人工复核:产品类别没识别出来、标准编号缺失或疑似不完整、原文里有"通常、一般、约、视情况"这类模糊表述、图片或扫描件没识别出来。
这就像工厂里的质检环节,机器筛一遍,人再过一遍,双重保险。
第六步:生成建议测试问题
知识库导入后必须测试,否则不知道清洗有没有效。
我设计了几类测试问题:
明确产品的问题("照明产品测试周期多久?") 明确标准的问题("CCC认证需要什么资料?") 同名字段冲突问题("测试周期多久?"应该追问产品类别) 信息不足的问题("这个标准适不适用我的产品?")
每道题都配了期望答案和风险类型,测完就知道哪里还有漏洞。
第七步:修改Coze Bot的系统提示词
资料清洗解决的是"怎么进库",系统提示词解决的是"怎么查、怎么答"。
我给Bot设了几条硬规矩:
专业知识类问题必须基于知识库回答,不能自己编。 用户明确说了产品,只答该产品,不能混用。 事实类问题优先查关键信息索引。 用户没说清楚产品,而知识库里有多个答案时,必须追问,不能猜。 不回答任何价格、费用、报价类问题。 每句话尽量带上来源文件和来源位置。
这几条规则写在系统提示词里,Bot就会按这个逻辑来。
四、一句话总结
在Coze普通知识库不支持标签的情况下,必须把"标签、索引、冲突控制、追问规则"前置到资料清洗和系统提示词里,才能显著降低乱答风险。
说白了,就是平台不支持的事,你自己用流程补上来。
五、写在最后
这篇方案是我帮朋友做项目时实打实踩出来的。47岁从零开始学AI,最大的感受就是:很多时候不是技术有多难,是你不知道坑在哪里。
你永远不知道今天学的东西,会在哪一天派上用场。 就像我当年无意中考了个高级程序员证,没想到后来面试大厂时帮了大忙。
如果你也在用Coze做知识库,或者你在其他AI工具上踩过类似的坑,欢迎评论区聊聊,我会挨个回复。
如果你自己放弃了自己,没人能救你。但如果你还在学,路就在前面。
我是Billy,47岁从公司离职,正在用AI重新开始。
如果你也在某个路口犹豫不决,关注我,看看一个普通人怎么走这条路。

夜雨聆风