RAG时代,别再写“给人看”的文档了!
RAG时代,别再写“给人看”的文档了!
明明整理了结构清晰、图文并茂的Wiki,接入AI问答系统后,准确率却只有惨不忍睹的35%? 很多技术团队发现,那些耗时数月精心打磨的文档,虽然对人类读者很友好,但对AI来说几乎是“不可读”的。
一、 认知错位:AI是怎么“读”文档的? 人类阅读是主动且连贯的,能通过目录和上下文自动补全隐含知识。而AI在RAG(检索增强生成)模式下,阅读是碎片的、被动的、局部最优的。系统会将长文档切分成一个个512或1024 token的“分块”存入数据库。如果某个分块开头写着“这种设计模式的优势在于……”,AI往往无法得知“这种”到底指代什么,导致回答“无法确定答案”。
二、 RAG-Friendly文档的四大核心原则 想要让AI变聪明,文档必须从“叙事范式”转向“检索范式”:
自包含(Self-Contained): 确保每个分块包含理解它所需的全部上下文。避免使用“如前所述”、“详见上文”等指代,直接写明具体对象名称。
显式结构(Explicit Structure): 抛弃依赖语义理解的密集段落,多使用显式编号、列表和定义。这能让AI在检索时精确锚定逻辑层级。
术语一致性(Terminology Consistency): 一个概念只能有一个标准名称。如果存在“网关层”或“入口服务”等别名,必须显式声明,否则AI会将其视为不同物种。
问答导向(QA-Oriented): 直接将文档改写为“Q: 系统采用什么协议?A: 使用gRPC协议”的形式,让AI能与用户查询实现像素级匹配。
三、 结语:你正在定义AI的能力边界 一个反直觉的事实是:AI的能力上限,很大程度上取决于文档的质量。再强大的大模型,如果基于混乱、缺乏结构的文档进行检索,也只能给出平庸甚至错误的回答。
在RAG时代,文档工程师不仅是在写参考资料,更是在构建**“AI的认知基础设施”**。下次写文档时,请自问:“如果AI只能看到这一小段,它能理解我在说什么吗?”
夜雨聆风
