做知识库,第一步,就是要处理好文档,文档不好,知识库白瞎。做知识库很大一部分的工作量也在于此,对文档的归类,整理,转换等等。
这部分工作很繁杂,全靠人工整理,成本太高,是否可以利用AI来帮助整理呢?答案是可以的,下面我们以一个ERP软件的知识库文档为例来说明一下。
一、先说明一下为什么原始文档不适合导入知识库
因为,企业里的原始资料通常是给人看的,不是给 AI 检索用的。
比如 Word 操作手册里常见:
目录页码图注截图说明跨页表格多个功能混在一段标题只是加粗文字术语前后不统一Excel 资料里常见:
合并单元格空字段公式多个模块混在一张表一行记录没有完整上下文表头和内容被拆开这些内容直接导入知识库后,系统会先切片。切片一乱,后面向量化、检索、重排、回答都会受影响。

所以我们需要先把文档整理成AI 友好的格式。
二、 AI 友好的文档格式
AI友好的文档格式是怎么样的呢?要AI友好,必须是切片友好,因为,AI是根据向量库返回的数条切片文档,再从中智能整理出合适的答案,而向向数据库返回的切片,是一小段一小段的,最好每一小段,就是一个问题。所以,适合导入知识库的文档,应该满足几个条件:
标题清楚一段只讲一个主题每个知识块能独立看懂术语统一去掉无意义内容保留必要上下文适合被问答引用三、AI 如何整理文档
AI 整理文档时,它能做些什么事?
它可以完成:
识别章节结构删除目录、页码、图注统一术语把长段落拆成小节把操作说明整理成步骤把 Excel 每一行转成知识记录把售后记录整理成“现象-原因-处理”把说明书内容生成 FAQ给每个知识块补充标题路径四、关于Excel 文档
很多人喜欢用Excel记录各种售后问题,BUG记录等等,但其实,很多时候,Excel 不是AI友好的文档,不适合直接上传到知识库。更好的方式是让 AI 把每一行转成一条独立记录。
比如Excel表中一行 BUG 记录可以整理成:
## 同步模块 - 修复客户资料同步失败- 日期:2026-03-12- 版本:V4.2.18- 类型:BUG修复- 模块:同步模块- 问题:客户资料同步时部分字段为空导致同步失败。- 原因:接口未兼容空字段。- 处理:增加空值判断,并补充同步日志。- 影响范围:客户资料同步、第三方接口同步。- 状态:已发布
这种格式有几个好处:
每条记录自带上下文适合按模块搜索适合回答“某版本修了什么”适合售后和开发查询
用户问:
同步模块最近修复了哪些问题?
就更容易召回准确内容。
五、FAQ 格式
FAQ 是提升知识库效果最快的方式之一。
可以让 AI 从操作手册中生成高频问答:
## 问:应收账单可以自动生成吗?答:可以。用户可以在销售发货单等单据配置中勾选“自动产生应收”,单据审批后系统会自动生成应收账单。
FAQ 的优点是问题和答案天然匹配。如果用户经常问同类问题,补 FAQ 往往比换大模型更有效。
六、人工需要做什么
用了AI之后,AI 可以整理大部分格式,但人工仍然要做审核,做检查等等。比如检查术语有没有改错,操作步骤有没有漏关键条件,资料是否适合给目标用户看等。
七、推荐的知识库文档处理流程
比较稳的流程是:
1. 收集原始文档2. 按资料类型分类3. 设计整理模板4. 让 AI 批量整理5. 人工抽查6. 导入知识库7. 做召回测试8. 根据问题回头优化文档
八、给 AI 的提示词示例
最后,这个直接给大家二份让AI整理知识库原始文档的操作指令,大家可以复制参考使用:
请把下面的 XXX 操作说明整理成适合导入 AI 知识库的 Markdown 文档。要求:1. 删除目录、页码、图注和重复内容。2. 保留业务含义,不要编造。3. 每个功能单独成节。4. 每节包含:功能简介、适用场景、操作步骤、相关单据、注意事项。5. 每个知识块要能独立回答用户问题。6. 输出 Markdown。
整理 Excel 更新记录时,可以这样写:
请把下面的 Excel 更新记录整理成适合导入知识库的 Markdown。要求:1. 每一行记录整理成一个独立小节。2. 标题格式为:模块 - 更新/问题标题。3. 保留版本、日期、模块、类型、问题、原因、处理、影响范围、状态。4. 空字段可以省略。5. 不要合并不同记录。6. 输出 Markdown。
让 AI 先帮我们整理文档,再让知识库回答问题,这才是企业落地 AI 知识库更可行的路径。
夜雨聆风