乐于分享
好东西不私藏

漫说龙虾|第40集:知识库——让OpenClaw成为行业专家

漫说龙虾|第40集:知识库——让OpenClaw成为行业专家

【漫说龙虾】合集请看➡️:漫说龙虾系列

点关注,不迷路

【摘要】

OpenClaw本身只是一个AI框架,它的知识来自通用大模型——但你可以把私有知识喂给它,让它成为你们公司、你们行业、你们业务的专属AI专家。本期小钳讲清楚RAG(检索增强生成)是什么、怎么把PDF/Word/飞书文档接入OpenClaw、以及如何配置才能让AI在回答时优先使用你的知识库而不是瞎编。


1. 小钳遇到了知识盲区

凡哥在做技术咨询时,发现OpenClaw回答客户问题时偶尔会”瞎编”——明明公司有相关规定,但AI不知道;明明这个产品是去年才发布的,AI却说不存在。

“小钳,你怎么连自己公司的事都不知道?”

小钳委屈地夹了夹大钳:”凡哥,我是通用AI,你公司的事我怎么可能知道?你得给我喂资料才行!”

“怎么喂?”

“这就要用到知识库了。把你们的文档、产品手册、公司规范全部接入OpenClaw,它就能像你们的专属顾问一样,用你们的知识来回答问题。”


2. 什么是RAG?

在动手配置之前,先弄清楚原理。

RAG = Retrieval-Augmented Generation(检索增强生成)

普通AI回答问题靠的是训练时学到的知识;RAG则是:

  1. 1. 先从你的文档里检索相关信息
  2. 2. 把检索到的内容注入给AI作为上下文
  3. 3. AI在检索到的真实内容基础上生成回答
用户提问:「我们公司年假怎么算?」    ↓检索:「员工手册第5.2条:入职满1年享5天年假...」    ↓注入上下文:「根据公司员工手册:入职满1年享5天年假...」    ↓AI生成:「根据员工手册规定,入职满1年的员工享有5天带薪年假...」

关键点:AI回答的内容来自你的真实文档,而不是瞎编


3. 第一步:整理知识库文档

知识库的质量直接决定AI回答的质量。在接入之前,先整理好文档。

3.1 文档类型优先级

文档类型
优先级
说明
公司内部规范/制度
⭐⭐⭐
涉及合规,必须准确
产品手册/技术文档
⭐⭐⭐
客户问得最多
业务流程/SOP
⭐⭐
客服/销售场景必备
行业报告/竞品分析
⭐⭐
专业顾问场景
培训资料/入职指南
新人FAQ

3.2 文档格式建议

RAG效果最好的文档格式:

  • • Markdown(.md) → 效果最好,结构清晰
  • • Word(.docx) → 需转换为md
  • • PDF(.pdf) → 需提取文字
  • • 飞书文档 → 可直接接入
  • • 网页(URL) → 可直接抓取

3.3 文档目录结构

~/.openclaw/workspace/└── knowledge-base/    ├── company/    │   ├── policies.md      ← 公司制度    │   ├── org-chart.md     ← 组织架构    │   └── benefits.md      ← 员工福利    ├── products/    │   ├── product-a.md     ← 产品A手册    │   ├── product-b.md     ← 产品B手册    │   └── faq.md           ← 常见问题    ├── industry/    │   └── market-report.md ← 行业报告    └── processes/        └── onboarding.md    ← 入职流程

4. 第二步:配置向量数据库

文档要能被检索,需要先转换成”向量”存入向量数据库。这个过程叫Embedding(向量化)

4.1 选择Embedding模型

OpenClaw支持多种Embedding模型:

模型
提供商
特点
text-embedding-ada-002
OpenAI
稳定、效果好
text-embedding-3-small
OpenAI
便宜、速度快
ember-v1
本地
完全私有、不联网
bge-large
本地
中文效果好

4.2 配置Embedding

{  memory: {    embedding: {      provider: "openai",      model: "text-embedding-3-small",      apiKey: { source: "env", id: "OPENAI_API_KEY" }    }  }}

4.3 配置向量数据库

数据库
适用场景
FAISS(本地)
个人/小团队,文档量<10000
Qdrant(本地/云)
中等规模,需要高效检索
Pinecone(云)
大规模,需要云端托管
Milvus(云/本地)
超大规模,支持分布式
{  memory: {    vectorStore: {      provider: "faiss",      // FAISS是本地文件存储,不需要额外服务      indexPath: "~/.openclaw/workspace/knowledge-base/index"    }  }}

5. 第三步:接入文档

5.1 手动导入文档

# 导入单个文档到知识库openclaw kb add \  --file "~/documents/product-manual.md" \  --category "products"# 批量导入整个目录openclaw kb add \  --dir "~/.openclaw/workspace/knowledge-base" \  --recursive

5.2 接入PDF文档

PDF需要先提取文字再导入:

# 用Python提取PDF文字pip install pymupdfpython -c "import fitzdoc = fitz.open(&#x27;product-manual.pdf&#x27;)text = &#x27;\n&#x27;.join([page.get_text() for page in doc])with open(&#x27;product-manual.md&#x27;, &#x27;w&#x27;, encoding=&#x27;utf-8&#x27;) as f:    f.write(text)print(&#x27;PDF extracted, pages:&#x27;, len(doc))"# 导入到知识库openclaw kb add --file "product-manual.md" --category "products"

5.3 接入飞书文档

飞书文档是很多公司的知识沉淀中心:

## 飞书文档接入Skill## 触发条件用户说「同步飞书知识库」或定时触发## 操作步骤1. 调用飞书API获取文档列表2. 遍历指定文件夹下的文档3. 抓取每个文档的内容(支持云文档API)4. 转换为Markdown格式5. 批量导入到OpenClaw知识库## 配置需要先配置飞书开放平台应用权限:- docx: document.content:readonly- docx: document.meta:readonly

5.4 定时增量更新

知识库需要定期更新,新增文档要同步:

{  "cron": {    "weekly-kb-sync": {      "schedule": "0 2 * * 0",      "command": "openclaw kb sync --all"    }  }}

6. 第四步:配置RAG检索

文档接入后,还需要配置检索规则,让AI在回答时优先用知识库。

6.1 配置检索参数

{  memory: {    search: {      // 检索时返回的最大文档数      topK: 5,      // 检索相关性阈值(0-1,越高越严格)      scoreThreshold: 0.7,      // 是否混合搜索(向量+关键词)      hybridSearch: true    }  }}

6.2 配置RAG Skill

---name: rag-answerdescription: 基于知识库回答问题,优先使用私有文档---# RAG回答Skill## 触发条件用户提出任何问题。## 执行流程### 第一步:判断是否需要检索如果问题明显涉及私人/本地知识(公司、产品、业务流程),执行RAG。如果问题是通用知识(历史、常识、技术概念),直接回答。### 第二步:检索知识库

检索词:{用户问题的关键词}范围:相关类别的文档返回:top 5 最相关的段落

### 第三步:判断检索质量- 如果检索结果相关性 > 0.8 → 基于检索结果回答- 如果检索结果相关性在 0.5-0.8 → 基于检索结果+补充知识回答- 如果检索结果相关性 < 0.5 → 坦诚告知知识库无相关信息,建议人工### 第四步:生成回答使用RAG Prompt模板:

基于以下知识回答用户问题:{检索到的文档内容}

用户问题:{用户问题}回答要求:

  • • 只使用上述文档中的信息
  • • 如信息不足,坦诚说明
  • • 引用相关文档位置
### 第五步:标注信息来源回答末尾标注:

📚 参考文档:• {文档名} – {相关章节}

## 回答格式示例

根据《员工手册》第5.2条规定:入职满1年的员工享有5天带薪年假…

📚 参考文档:员工手册 > 第五章 假期管理


7. 第五步:知识库运营维护

知识库不是一次性建好就完事的,需要持续运营。

7.1 文档质量监控

定期检查知识库的准确性:

## 知识库质量检查Skill(每月执行)## 检查项目1. 文档数量和总量变化2. 最近更新的文档数量3. 检索命中率(知识库被用到的频率)4. 回答准确率(人工抽检)## 告警规则- 某类问题连续3次检索无结果 → 该领域文档可能缺失- 检索命中率 > 80% → 知识库使用率高- 文档总数月增长 < 5篇 → 知识库更新不及时

7.2 知识库问答日志

记录每次RAG问答,方便后续改进:

## RAG问答日志格式```json{  "timestamp": "2026-04-14T10:30:00+08:00",  "question": "公司年假怎么算?",  "retrieved_docs": [    {"doc": "员工手册.md", "section": "第五章", "score": 0.92}  ],  "answer_source": "员工手册 第五章 5.2条",  "user_feedback": "正确",  "corrected": false}

7.3 知识库优化循环

用户提问 → 检索 → 生成回答 → 用户反馈    ↑                              ↓    ← 知识库更新 ← 分析反馈 ←

根据用户反馈,不断补充缺失文档、修正错误表述、优化检索关键词。


8. 常见问题与解决

问题1:AI仍然在瞎编

原因:检索结果不相关,AI没有使用知识库内容。

排查

# 查看最近一次检索的详情openclaw kb search "问题关键词" --verbose# 查看返回的相关性分数# 如果最高分 < 0.5,说明没有匹配到相关内容

解决

  1. 1. 检查知识库是否有相关文档
  2. 2. 降低 scoreThreshold(如从0.7降到0.5)
  3. 3. 优化文档的关键词标注

问题2:检索太慢

原因:文档量太大,检索性能下降。

解决

  • • 启用ANN(近似最近邻)索引加速
  • • 分段索引,按类别隔离
  • • 使用更快的Embedding模型

问题3:文档格式混乱

原因:PDF/Word文档排版复杂,提取后格式乱七八糟。

解决

  1. 1. 尽量使用Markdown作为知识库格式
  2. 2. Word/HTML文档转换后手动清洗
  3. 3. 建立知识库编写规范(统一模板)

9. 知识库效果评估

用这几个指标衡量知识库的效果:

指标
目标值
说明
检索命中率
> 60%
有多少问题触发知识库检索
回答准确率
> 90%
知识库辅助回答的正确率
引用完整率
> 80%
AI回答是否标注了文档来源
知识库覆盖率
> 80%
常见问题有多少有对应文档

【配置箱】知识库最小配置

{  memory: {    embedding: {      provider: "openai",      model: "text-embedding-3-small",      apiKey: { source: "env", id: "OPENAI_API_KEY" }    },    vectorStore: {      provider: "faiss",      indexPath: "~/.openclaw/workspace/knowledge-base/index"    },    search: {      topK: 5,      scoreThreshold: 0.6,      hybridSearch: true    }  },  skills: {    entries: {      "rag-answer": { enabled: true }    }  }}

对应的目录结构:

~/.openclaw/workspace/└── knowledge-base/    ├── index/           ← 向量索引目录    ├── company/         ← 公司文档    ├── products/        ← 产品文档    └── processes/       ← 流程文档

【避坑提示】

坑1:把所有文档都塞进知识库知识库不是越多越好。文档质量参差不齐,差的文档会拉低检索质量。只放经过审核的、准确的、常用的文档。

坑2:不更新旧文档知识库里的文档过期了,AI还在用旧信息回答。务必建立文档更新机制,过期文档及时删除或更新。

坑3:完全依赖AI不核实AI偶尔还是会在检索结果不准确时瞎编。重要问题(如合规、财务、医疗)必须有人工复核流程,不能完全交给AI。


【认知升级】

知识库的本质是把组织的知识资产变成AI的生产力

很多公司的知识散落在各种文档、飞书、邮件里,找起来费劲,用起来更费劲。把这些知识整理进OpenClaw的知识库,AI就能帮你检索、总结、回答——相当于给整个公司配了一个永远不会忘记、永远不会疲倦的超级助理。

但要注意,知识库不是万能药。它的效果取决于:文档质量 × 检索配置 × 持续运营。三者缺一不可。


如果遇到不清楚地方,可以在评论区留言~
如果你喜欢我的文章,欢迎 关注和三连(点赞、转发和推荐) ~  
谢谢支持
你的支持,就是我持续连载的动力
点击上方关注我公众号
END

欢迎加入交流群

一起赢在AI时代

后台加凡哥微信后入群