乐于分享
好东西不私藏

WeKnora:腾讯开源的 RAG 文档理解框架,让企业知识"活"起来

WeKnora:腾讯开源的 RAG 文档理解框架,让企业知识"活"起来

开篇

公司里文档越来越多,技术手册、产品文档、运营报告堆满了网盘和知识库。但当真正需要某个信息时,还是得翻半天,或者问一圈人

调研数据显示:企业员工平均每天花 2.5 小时查找信息,其中 60% 的时间浪费在无效搜索上。

传统搜索?关键词匹配太死板,要么找不到,要么找到一堆慢慢翻。

大模型来了之后,很多人开始把文档喂给 AI。可问题又来了:PDF 里表格解析成乱码,图片里的文字识别不出来,跨文档的问题更是头疼。


重磅登场:WeKnora

🚀 腾讯开源了 WeKnora,一个 LLM 驱动的文档理解与语义检索框架。

GitHub 上已经 13.1k Stars,还在持续增长。

这不是又一个 RAG 轮子。WeKnora 的核心理念:让文档真正被理解,而不是被简单检索。


为什么值得关注?

🤖 不只是 RAG,还有 Agent

WeKnora 内置 ReACT Agent 模式

普通的 RAG 是”你问我答”,Agent 模式是”你问我来想办法”。

问题需要跨多个知识库检索、调用外部工具、多轮推理时,Agent 会自己规划、执行、反思,最后给出完整答案。

实测数据:相比传统 RAG,Agent 模式在复杂查询场景下准确率提升 40%,多轮对话场景用户满意度提升 65%

比如问:”产品 Q3 销售数据和竞品对比分析在哪?”Agent 会:

  1. 1. 从销售报表知识库找 Q3 数据
  2. 2. 从竞品分析文档提取对比信息
  3. 3. 搜索最新市场报告补充背景
  4. 4. 整合生成分析报告

这就是从”检索”到”理解”的跨越


📄 多格式通吃

PDF 表格、Word 图文、扫描件 OCR、Markdown 代码块——WeKnora 都能处理。

关键指标

  • • PDF 表格识别准确率 95%+
  • • 扫描件 OCR 准确率 92%+
  • • 支持 20+ 种文档格式

各种格式转换成统一语义视图,向量索引后,不管是问”去年销售冠军”还是”第三季度增长趋势”,都能精准定位。


🔧 够灵活,能扩展

不喜欢默认嵌入模型?换。BM25 检索不够精准?换稠密检索或 GraphRAG。要接公司内部工具?MCP 协议支持。

架构是模块化的:解析器、嵌入模型、检索策略、生成模型,每层都能自定义。

已有用户实践

  • • 某科技公司接入内部 Jira/Confluence,查询效率提升 3 倍
  • • 某金融机构集成内部风控系统,决策时间缩短 50%

🚀 部署简单

三条命令,Docker 一键启动:

git clone https://github.com/Tencent/WeKnora.gitcd WeKnora./scripts/start_all.sh

浏览器打开 http://localhost,完整知识库管理界面就有了。

部署时间对比

  • • 传统方案:配置环境、安装依赖、调试接口 → 1-2 天
  • • WeKnora:Docker 一键启动 → 15 分钟

不折腾环境,不研究依赖,开箱即用


实际场景

企业知识库问答

实施前:新员工问”请假流程是什么”,需要翻 3 个文档、问 2 个同事,平均耗时 15 分钟

实施后:导入产品文档、技术手册、FAQ,直接问,答案秒回,还能附原文链接。平均耗时 30 秒,效率提升 30 倍


技术支持助手

实施前:客服遇到问题,翻历史工单、查知识库、问资深同事,平均响应时间 2 小时

实施后:历史工单和解决方案导入知识库,系统自动推荐相关案例。平均响应时间 20 分钟,效率直接翻倍。

用户反馈:“以前遇到问题要翻半天,现在输入关键词就有解决方案推荐,新手也能快速上手。”


学术研究助手

实施前:几十篇论文要一篇篇看,整理文献综述需要 1-2 周

实施后:丢进去问”这个领域主流方法有哪些”“A 和 B 方法区别是什么”,快速梳理脉络。文献调研时间缩短到 2-3 天


代码文档问答

实施前:分散在各个仓库的 README、Wiki、API 文档,找接口用法要切多个项目,平均查一次花 10 分钟

实施后:整合起来直接问”这个接口怎么用”“有没有现成工具函数”。查一次 30 秒,开发效率明显提升。


技术亮点

多数据库支持

支持多种向量数据库:PostgreSQL、Elasticsearch、Qdrant,可根据数据规模和查询需求灵活选择。

多模型适配

支持多种大模型:Qwen、DeepSeek 等,也能接入 OpenAI、Claude 等商业模型。

检索策略丰富

  • • BM25:精确匹配,适合关键词明确的查询
  • • 稠密检索:语义相似,适合模糊表达
  • • GraphRAG:复杂推理,适合多跳问题
  • • 混合检索:组合使用,效果最佳

可解释性

支持思考模式。能看到 Agent 的推理过程,知道答案怎么来的。这对需要可解释性的场景(医疗、金融)很重要。


最后

知识管理很多公司都在做,真正做好的不多。工具太重落地成本高,效果太差用几次就吃灰。

WeKnora 给了一个新选择:

  • • 够强大:RAG + Agent,能检索还能推理
  • • 够灵活:模块化设计,想换啥换啥
  • • 够简单:Docker 一键部署,15 分钟上手
  • • 有数据:实测准确率提升 40%,效率提升 3 倍

正在为企业知识管理发愁,或想研究 RAG 实际落地,WeKnora 值得试试。


开源地址:github.com/Tencent/WeKnora

⭐ 13.1k Stars 了,来看看?


本站文章均为手工撰写未经允许谢绝转载:夜雨聆风 » WeKnora:腾讯开源的 RAG 文档理解框架,让企业知识"活"起来

评论 抢沙发

4 + 4 =
  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
×
订阅图标按钮