OpenClaw实战:第三期从零开始建设招投标知识库
上期我们完成了智能体配置,7个AI员工已经”上岗”。但它们还只是“空壳”——没有知识,就没有智慧。
想象一下:
-
你问招标代理专家:”招标文件怎么写?”
-
它回答:“我不知道,请提供更多信息…”
这就是没有知识库的智能体。本文将手把手教你建设知识库,让AI真正”懂业务”。
知识库是什么?为什么要建?
📌 知识库的作用
❌ 没有知识库的智能体
用户:招标投标法对投标保证金有什么规定?智能体:抱歉,我没有相关信息。请提供具体的法律条文…
✅ 有知识库的智能体
用户:招标投标法对投标保证金有什么规定?智能体:根据《招标投标法实施条例》第二十六条规定:
-
投标保证金不得超过招标项目估算价的2%
-
投标保证金有效期应当与投标有效期一致
-
招标人不得挪用投标保证金
【来源:招标投标法实施条例.md】
📌 知识库 vs 训练数据
📚 知识库
✅ 直接替换文件更新,几分钟搞定
✅ 可追溯来源
🤖 训练数据
❌ 需要重新训练,几天+大量算力
❌ 无法追溯来源
🎯 结论:知识库是企业AI的最佳选择!
知识库规划:先想清楚再动手
📌 招投标业务知识分类
在动手之前,先梳理知识类型:
-
法律法规:招标投标法、政府采购法、地方政策(更新频率低,重要性最高)
-
招标范本:各类招标文件模板(每季度更新)
-
行业标准:技术规范、验收标准(每年更新)
-
企业资料:资质证书、业绩案例、人员信息(随时更新)
-
业务知识:流程指南、经验总结、案例分析(每月更新)
📌 目录结构设计
好的目录结构 = 清晰的知识组织 = 更好的检索效果
knowledge-base-md-new/ ├── laws/ # 法律法规 │ ├── 国家法律/ │ ├── 部门规章/ │ ├── 地方政策/陕西省/ │ └── 政府采购/ ├── templates/ # 招标文件范本 │ ├── 工程招标/ │ ├── 货物招标/ │ ├── 服务招标/ │ └── 政府采购/ ├── standards/ # 行业标准 ├── enterprise/ # 企业资料库 └── guides/ # 业务指南
▲ 知识库目录结构示意图
文档收集与格式转换
📌 我们的原始文档
📌 为什么转换为 Markdown?
Markdown 是纯文本、易读易写、检索友好,是知识库的最佳格式!
📌 安装转换工具
工具选择:Pandoc,文档转换的”瑞士军刀”,支持几乎所有格式互转。
# Ubuntu/Debiansudo apt install pandoc# macOSbrew install pandoc
📌 批量转换 DOCX 文件
# 批量转换DOCXfor file in *.docx; do pandoc "$file" -o "${file%.docx}.md" --wrap=none done
📌 PDF 文件转换(重点!)
PDF 转换需要区分两种情况:
情况1:文字版 PDF
pandoc input.pdf -o output.md
情况2:扫描版 PDF(需要OCR识别)
sudo apt install tesseract-ocr tesseract-ocr-chi-sim sudo apt install ocrmypdf ocrmypdf --language chi_sim input.pdf output-ocr.pdf pandoc output-ocr.pdf -o output.md
📌 我们的转换结果
成功率:91%,未转换的为扫描版PDF,需OCR处理
知识库索引配置(重点!)
📌 什么是知识库索引?
想象你在图书馆找一本书:
-
❌ 没有索引:一本一本翻找,效率极低
-
✅ 有索引:查目录,直接定位书架
知识库索引就是给 AI 建一个“目录”,让它能快速找到相关内容。
📌 嵌入服务选择
⚠️ 重要警告:本地嵌入的坑!
我们最初使用本地嵌入,结果:
-
问题:CPU占用370%,持续数小时
-
原因:本地模型用CPU计算向量,无GPU加速
-
影响:服务器严重卡顿,其他服务无法正常运行
解决方案:使用远程嵌入 API
|
|
|
|
|
|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
📌 成本估算
-
初始索引(724文件):约500万token,费用$0.10
-
月增量更新:约50万token,费用$0.01
-
年度总成本:约$0.20
💡 结论:远程嵌入成本极低,千万不要用本地嵌入!
📌 OpenAI 嵌入配置
访问 platform.openai.com 获取API Key
配置 OpenClaw:
{ "agents": { "defaults": { "memorySearch": { "enabled": true, "provider": "openai", "apiKey": "sk-xxx...", "model": "text-embedding-3-small" } } } }
重启 Gateway 使配置生效:
openclaw gateway restart
▲ 知识库索引工作原理
企业资料库建设
📌 为什么需要企业资料库?
编制投标文件时,智能体需要:
-
📋 企业资质证书
-
🏗️ 类似业绩案例
-
👤 项目经理信息
-
⚙️ 技术人员配置
这些都可以从企业资料库中查询。
📌 企业资料库结构
enterprise/ ├── sync-config.yaml # 同步配置 ├── index.json # 企业索引 └── enterprises/ └── ENT-2026-001/ ├── basic-info.json # 基本信息 ├── qualification.json # 资质信息 ├── performance.json # 业绩案例 └── personnel.json # 人员信息
实战经验总结
📌 知识库质量检查清单
✅ 文件格式:全部为Markdown
✅ 编码统一:UTF-8
✅ 标题清晰:每个文件有明确标题
✅ 内容完整:无截断、无乱码
✅ 分类正确:文件在正确目录
✅ 索引成功:Gateway日志无错误
📌 常见问题与解决
Q1:知识库文件很多,但检索效果不好?
原因:文件标题不清晰、关键词缺失解决:在文件末尾添加关键词
Q2:知识库更新后,智能体没有感知?
解决:重启 Gateway
openclaw gateway restart
最佳实践
✅ 推荐做法
1. 先规划再动手:明确知识库结构和分类
2. 使用远程嵌入API:OpenAI或Gemini,成本极低
3. 统一Markdown格式:便于检索和维护
4. 定期更新维护:保持知识库时效性
5. 关键词标注:提高检索准确率
❌ 避免做法
1. 不要使用本地嵌入:CPU占用370%+
2. 不要忽略格式规范:影响检索效果
3. 不要堆砌文件:质量 > 数量
4. 不要忘记更新:过期知识 = 错误知识
成本与时间估算
📌 嵌入API成本(以OpenAI为例)
💡 结论:知识库嵌入成本极低,不用担心费用问题!
📌 时间成本
⏱️ 合计:约 9 天
▲ 知识库建设时间规划
🔜 下期预告
第四期:智能体协作实战篇
• 多智能体协作原理• 实际业务场景演示• 招标文件生成全流程• 投标文件编制实战
💬 互动话题
1️⃣ 你的知识库有多少文件?转换过程中遇到了什么问题?
2️⃣ 你使用的是哪种嵌入服务?效果如何?
3️⃣ 欢迎分享你的知识库建设经验!
👇 评论区见,期待你的分享!
📌 更多OpenClaw实战教程,关注主页查看~
点赞 · 在看 · 收藏 · 转发,让更多人看到 👇
夜雨聆风