乐于分享
好东西不私藏

OpenClaw实战:第三期从零开始建设招投标知识库

OpenClaw实战:第三期从零开始建设招投标知识库

上期我们完成了智能体配置,7个AI员工已经”上岗”。但它们还只是“空壳”——没有知识,就没有智慧。

想象一下:

  • 你问招标代理专家:”招标文件怎么写?”

  • 它回答:“我不知道,请提供更多信息…”

这就是没有知识库的智能体。本文将手把手教你建设知识库,让AI真正”懂业务”。

01.

知识库是什么?为什么要建?

📌 知识库的作用

❌ 没有知识库的智能体

用户:招标投标法对投标保证金有什么规定?智能体:抱歉,我没有相关信息。请提供具体的法律条文…

✅ 有知识库的智能体

用户:招标投标法对投标保证金有什么规定?智能体:根据《招标投标法实施条例》第二十六条规定:

  • 投标保证金不得超过招标项目估算价的2%

  • 投标保证金有效期应当与投标有效期一致

  • 招标人不得挪用投标保证金

【来源:招标投标法实施条例.md】

📌 知识库 vs 训练数据

📚 知识库

✅ 直接替换文件更新,几分钟搞定

✅ 可追溯来源

🤖 训练数据

❌ 需要重新训练,几天+大量算力

❌ 无法追溯来源

🎯 结论:知识库是企业AI的最佳选择!

02.

知识库规划:先想清楚再动手

📌 招投标业务知识分类

在动手之前,先梳理知识类型:

  • 法律法规:招标投标法、政府采购法、地方政策(更新频率低,重要性最高)

  • 招标范本:各类招标文件模板(每季度更新)

  • 行业标准:技术规范、验收标准(每年更新)

  • 企业资料:资质证书、业绩案例、人员信息(随时更新)

  • 业务知识:流程指南、经验总结、案例分析(每月更新)

📌 目录结构设计

好的目录结构 = 清晰的知识组织 = 更好的检索效果

knowledge-base-md-new/ ├── laws/            # 法律法规 │   ├── 国家法律/ │   ├── 部门规章/ │   ├── 地方政策/陕西省/ │   └── 政府采购/ ├── templates/       # 招标文件范本 │   ├── 工程招标/ │   ├── 货物招标/ │   ├── 服务招标/ │   └── 政府采购/ ├── standards/       # 行业标准 ├── enterprise/      # 企业资料库 └── guides/          # 业务指南

▲ 知识库目录结构示意图

03.

文档收集与格式转换

📌 我们的原始文档

291
PDF文件
101
DOC文件
298
DOCX文件
690
合计

📌 为什么转换为 Markdown?

Markdown 是纯文本、易读易写、检索友好,是知识库的最佳格式!

📌 安装转换工具

工具选择:Pandoc,文档转换的”瑞士军刀”,支持几乎所有格式互转。

# Ubuntu/Debiansudo apt install pandoc# macOSbrew install pandoc

📌 批量转换 DOCX 文件

# 批量转换DOCXfor file in *.docx; do   pandoc "$file" -o "${file%.docx}.md" --wrap=none done

📌 PDF 文件转换(重点!)

PDF 转换需要区分两种情况:

情况1:文字版 PDF

pandoc input.pdf -o output.md

情况2:扫描版 PDF(需要OCR识别)

sudo apt install tesseract-ocr tesseract-ocr-chi-sim sudo apt install ocrmypdf ocrmypdf --language chi_sim input.pdf output-ocr.pdf pandoc output-ocr.pdf -o output.md

📌 我们的转换结果

690
原始文件
626
转换成功
130
待OCR处理

成功率:91%,未转换的为扫描版PDF,需OCR处理

04.

知识库索引配置(重点!)

📌 什么是知识库索引?

想象你在图书馆找一本书:

  • ❌ 没有索引:一本一本翻找,效率极低

  • ✅ 有索引:查目录,直接定位书架

知识库索引就是给 AI 建一个“目录”,让它能快速找到相关内容。

📌 嵌入服务选择

⚠️ 重要警告:本地嵌入的坑!

我们最初使用本地嵌入,结果:

  • 问题:CPU占用370%,持续数小时

  • 原因:本地模型用CPU计算向量,无GPU加速

  • 影响:服务器严重卡顿,其他服务无法正常运行

解决方案:使用远程嵌入 API

服务商
模型
价格
推荐指数
OpenAI
text-embedding-3-small
$0.02/百万token
⭐⭐⭐⭐⭐
Gemini
text-embedding-004
免费(有配额)
⭐⭐⭐⭐⭐

📌 成本估算

  • 初始索引(724文件):约500万token,费用$0.10

  • 月增量更新:约50万token,费用$0.01

  • 年度总成本:约$0.20

💡 结论:远程嵌入成本极低,千万不要用本地嵌入!

📌 OpenAI 嵌入配置

1

访问 platform.openai.com 获取API Key

2

配置 OpenClaw:

{  "agents": {    "defaults": {      "memorySearch": {        "enabled"true,        "provider""openai",        "apiKey""sk-xxx...",        "model""text-embedding-3-small"       }     }   } }

重启 Gateway 使配置生效:

openclaw gateway restart

▲ 知识库索引工作原理

05.

企业资料库建设

📌 为什么需要企业资料库?

编制投标文件时,智能体需要:

  • 📋 企业资质证书

  • 🏗️ 类似业绩案例

  • 👤 项目经理信息

  • ⚙️ 技术人员配置

这些都可以从企业资料库中查询。

📌 企业资料库结构

enterprise/ ├── sync-config.yaml       # 同步配置 ├── index.json             # 企业索引 └── enterprises/     └── ENT-2026-001/         ├── basic-info.json      # 基本信息         ├── qualification.json   # 资质信息         ├── performance.json     # 业绩案例         └── personnel.json       # 人员信息
06.

实战经验总结

📌 知识库质量检查清单

✅ 文件格式:全部为Markdown

✅ 编码统一:UTF-8

✅ 标题清晰:每个文件有明确标题

✅ 内容完整:无截断、无乱码

✅ 分类正确:文件在正确目录

✅ 索引成功:Gateway日志无错误

📌 常见问题与解决

Q1:知识库文件很多,但检索效果不好?

原因:文件标题不清晰、关键词缺失解决:在文件末尾添加关键词

Q2:知识库更新后,智能体没有感知?

解决:重启 Gateway

openclaw gateway restart
07.

最佳实践

✅ 推荐做法

1. 先规划再动手:明确知识库结构和分类

2. 使用远程嵌入API:OpenAI或Gemini,成本极低

3. 统一Markdown格式:便于检索和维护

4. 定期更新维护:保持知识库时效性

5. 关键词标注:提高检索准确率

❌ 避免做法

1. 不要使用本地嵌入:CPU占用370%+

2. 不要忽略格式规范:影响检索效果

3. 不要堆砌文件:质量 > 数量

4. 不要忘记更新:过期知识 = 错误知识

08.

成本与时间估算

📌 嵌入API成本(以OpenAI为例)

$0.10
初始索引
$0.01
月增量更新
$0.20
年度总成本

💡 结论:知识库嵌入成本极低,不用担心费用问题!

📌 时间成本

规划设计
1天
文档收集
3天
格式转换
2天
质量检查
2天
索引配置
1天

⏱️ 合计:约 9 天

▲ 知识库建设时间规划

🔜 下期预告

第四期:智能体协作实战篇

• 多智能体协作原理• 实际业务场景演示• 招标文件生成全流程• 投标文件编制实战

💬 互动话题

1️⃣ 你的知识库有多少文件?转换过程中遇到了什么问题?

2️⃣ 你使用的是哪种嵌入服务?效果如何?

3️⃣ 欢迎分享你的知识库建设经验!

👇 评论区见,期待你的分享!

#招投标#AI智能体#OpenClaw#知识库建设#数字化转型#招标代理

📌 更多OpenClaw实战教程,关注主页查看~

点赞 · 在看 · 收藏 · 转发,让更多人看到 👇