乐于分享
好东西不私藏

WeKnora:面向深层文档理解与智能检索的 RAG 框架

WeKnora:面向深层文档理解与智能检索的 RAG 框架

WeKnora:面向深层文档理解与智能检索的 RAG 框架

WeKnora 是一个基于大语言模型 (LLM) 的框架,专为深层文档理解和语义检索而设计,特别擅长处理复杂的异构文档。它采用模块化架构,结合了多模态预处理、语义向量索引、智能检索和大模型推理。

你可以将它理解为一个为团队量身打造的“超级知识中枢”。


✨ 最新动态

v0.3.0 亮点

🏢 共享空间:支持成员邀请、共享知识库和 Agent,实现租户隔离检索。
🧩 Agent Skills:具备预加载技能的智能推理 Agent 系统,提供沙箱执行环境。
🤖 自定义 Agent:支持配置知识库选择模式(全部/指定/禁用)。
📊 数据分析 Agent:内置支持 CSV/Excel 分析的 Data Analyst Agent。
🧠 思考模式:支持 LLM 和 Agent 的思考过程展示,智能过滤思考内容。
🔍 更多搜索源:新增 Bing 和 Google 搜索支持。
🔑 API Key 认证:提供 Swagger 文档支持的 API Key 安全机制。
☸️ Helm Chart:支持 Kubernetes 完整部署,支持 Neo4j GraphRAG。
🌍 全球化:新增韩语 (한국어) 支持。
⚡ 基础架构:新增 Qdrant 向量数据库支持,优化 Ollama 嵌入。

v0.2.0 亮点

🤖 ReACT Agent 模式:通过多次迭代和反思生成综合摘要报告。
📚 多类型知识库:支持 FAQ 和文档类知识库,包含文件夹、URL 导入。
🔌 MCP 工具集成:通过 MCP 扩展 Agent 技能,支持 npx/uvx 启动器。

🏗️ 架构设计

WeKnora 采用现代模块化设计,构建完整的文档理解与检索流水线。

  • 文档解析
    多模态预处理,从 PDF、Word、图片等提取结构化内容。
  • 向量处理
    语义向量索引。
  • 检索引擎
    结合关键词、向量、知识图谱的混合检索策略。
  • 大模型推理
    基于 RAG 范式提供语境感知的回答。

🚀 快速开始

    📦 安装步骤

    克隆仓库

    git clone https://github.com/Tencent/WeKnora.gitcd WeKnora

    配置环境变量

    cp .env.example .env# 编辑 .env 文件设置必要的值(如 LLM API Key 等)

    启动服务

    核心服务:docker compose up -d
    全功能开启:docker-compose --profile full up -d
    启用 Neo4j 知识图谱:docker-compose --profile neo4j up -d
    启用 Minio 存储:docker-compose --profile minio up -d
    一键启动(含 Ollama)

    ./scripts/start_all.sh# 或者make start-all

    📱 功能展示

    • 知识库管理
      支持拖拽、文件夹、URL 等多种导入方式,自动提取核心知识。
    • Agent 模式
      ReACT 模式支持调用内置工具、MCP 工具和搜索工具。
    • 文档知识图谱
      将文档转化为知识图谱,展示段落间的语义关联,增强检索精度。
    • 微信对话开放平台
      WeKnora 是 微信对话开放平台 的核心技术框架。

    🔗 通过 MCP 服务器访问

    您可以将 WeKnora 作为 MCP 服务器连接到您的 AI 客户端:

    {  "mcpServers": {    "weknora": {      "command": "python",      "args": ["path/to/WeKnora/mcp-server/run_server.py"],      "env": {        "WEKNORA_API_KEY": "您的 API Key (在开发者工具中查看 x-api-key)",        "WEKNORA_BASE_URL": "http://your-weknora-address/api/v1"      }    }  }}

    🧭 开发指南

    ⚡ 快速开发模式

    如果您需要频繁修改代码,无需每次构建 Docker 镜像:

    # 启动基础设施make dev-start# 启动后端 (新终端)make dev-app# 启动前端 (新终端)make dev-frontend
    • 优势
      前端代码热重载,后端快速重启(5-10s),支持 IDE 断点调试。

    🎯 适用场景

    WeKnora 的多模态解析和智能 Agent 能力使其在以下场景中表现卓越:

    • 企业级知识库
      深度解析复杂的 PDF/Word 规章制度、技术文档,提供精准的内部问答。
    • 智能客服系统
      结合微信对话开放平台,快速搭建零代码的公众号/小程序 AI 客服。
    • 研发辅助助理
      通过 MCP 协议连接开发环境,辅助阅读代码仓文档或项目指南。
    • 复杂数据分析
      利用内置的 Data Analyst Agent,直接对上传的 CSV/Excel 报表进行理解与统计。
    • 科研/法律文档分析
      利用知识图谱功能理清长篇法律条文或论文中的复杂引用与逻辑关系。

    📱 功能展示

    📝 总结

    WeKnora 不仅仅是一个简单的 RAG 工具,它代表了腾讯在 “深度文档理解” 与 “场景化 Agent” 结合上的最新实践

    1. 深度胜过广度
      专注于对异构文档(如图表、复杂排版)的结构化提取,解决 RAG 系统“输入质量”的痛点。
    2. Agent 驱动的交互
      通过 ReACT 模式和 MCP 扩展,使检索不再是单一的“问-答”,而是具备迭代反思和工具调用的智能解决过程。
    3. 极简与强大的平衡
      既支持 Web UI 零代码上手,也通过 Helm/Docker、MCP 服务器为开发者提供了深度的定制与集成空间。
    4. 腾讯生态基因
      原生适配腾讯云与微信生态,是企业级智能对话解决方案的可靠内核。
    github地址: https://github.com/Tencent/WeKnora
    本站文章均为手工撰写未经允许谢绝转载:夜雨聆风 » WeKnora:面向深层文档理解与智能检索的 RAG 框架

    评论 抢沙发

    6 + 7 =
    • 昵称 (必填)
    • 邮箱 (必填)
    • 网址
    ×
    订阅图标按钮