别再把 PDF 喂给云端 AI 了:用 n8n + Ollama + Qdrant,搭一个完全本地的 RAG 知识库机器人

你有没有遇到过这种场景：

一份 200 页的 PDF 报告，老板只问一句：

“帮我找一下里面关于成本下降的结论。”

你打开 PDF，Ctrl+F 搜关键词，翻半天，找到几段似是而非的内容；

你丢给在线 AI，又担心文件里有公司资料、客户数据、合同信息；

你想做一个“本地知识库问答机器人”，但一听到向量数据库、Embedding、Agent、RAG，瞬间头大。

今天这篇文章，直接给你拆开。

我们要做的不是一个玩具 Demo，而是一个真正可以本地运行的 PDF 问答机器人：

不上传云端
不依赖 OpenAI API
支持 PDF 文档问答
用 n8n 可视化编排流程
用 Ollama 本地跑大模型
用 Qdrant 存储语义向量
最后通过聊天窗口直接提问

RAG 是 Retrieval-Augmented Generation，中文通常叫“检索增强生成”。

简单说就是：

先从你的资料库里找相关内容，再让大模型基于这些内容回答。

这也是为什么 RAG 比“直接把 PDF 丢给大模型”更适合做企业知识库、个人资料库、合同问答、论文助手。

一、为什么你需要一个本地 RAG？

很多人第一次用 AI 做文档问答，通常是这样的：

把 PDF 上传到某个 AI 工具，然后问：

“这份文档讲了什么？”

一开始觉得很爽。

但很快会遇到 3 个问题。

第一，隐私问题。

公司文档、客户资料、技术方案、合同条款、财务报告，很多都不能随便上传第三方平台。

第二，成本问题。

如果每次问答都走云端 API，文档越多、调用越频繁，成本越高。

第三，可控性问题。

你不知道模型到底参考了哪些内容，也很难把它接进自己的业务流程里。

所以，本地化 RAG 的价值就出来了。

它的本质不是“又搭了一个聊天机器人”，而是给你的私有资料装了一个大脑。

二、这个方案的核心架构

从图里可以看到，整个工作流主要由 5 个部分组成：

n8n：负责流程编排

Ollama Chat Model：负责本地大模型回答
Qdrant Vector Store：负责存储和检索文档向量

Embeddings Ollama：负责把文本转成向量

Simple Memory：负责保留对话上下文

可以把它理解成一个“本地知识库客服”。

用户提问之后，流程大概是这样：

用户提问
   ↓
n8n 接收消息
   ↓
AI Agent 判断问题
   ↓
去 Qdrant 里检索相关 PDF 片段
   ↓
Ollama 基于检索结果生成答案
   ↓
返回给用户

注意，真正的关键点不是“大模型自己知道答案”，而是：

大模型先查你的资料，再根据资料回答。

这就是 RAG 的核心。

三、n8n 在这里负责什么？

很多人一听 AI Agent，就以为要写一堆代码。

但 n8n 的好处是：它把复杂流程变成了可视化节点。

在这个工作流里，n8n 主要承担 3 个角色。

第一，接收用户输入。

图中左侧的 When chat message received 就是聊天触发器。

用户一发消息，整个流程就被启动。

第二，组织 Agent 能力。

中间的 AI Agent 是整个系统的“大脑调度中心”。

它连接了：

Chat Model

Memory
Tool

也就是说，它不只会聊天，还能调用工具、读取记忆、查询知识库。

第三，连接外部组件。

n8n 把 Ollama、Qdrant、Embedding 模型串起来，让它们形成一个完整闭环。

没有 n8n，你可能需要自己写后端、写接口、写状态管理。

有了 n8n，你更多是在“搭流程”。

这就是低代码 AI 工作流的爽点。

四、Ollama 在这里负责什么？

Ollama 是本地运行大模型的工具。

你可以把它理解成：

在自己电脑或服务器上跑一个 ChatGPT 类模型。

常见可以用的模型包括：

Llama
Qwen
Mistral
Gemma
DeepSeek 系列模型

在这个方案里，Ollama 有两个作用。

第一个作用：生成回答。

也就是图里的 Ollama Chat Model。

当用户问：

“这份 PDF 里对项目风险是怎么描述的？”

AI Agent 会先从 Qdrant 找资料，然后把资料交给 Ollama，让它组织成自然语言回答。

第二个作用：生成 Embedding。

也就是图里的 Embeddings Ollama1。

Embedding 是什么？

你可以简单理解为：把文字变成一串数字，让机器能判断“语义相似度”。

比如：

“如何降低运营成本？”

和

“报告中有哪些降本措施？”

这两个问题字面不一样，但语义很接近。

普通关键词搜索可能搜不到，但向量搜索可以找到相关内容。

这就是 Embedding 的价值。

五、Qdrant 在这里负责什么？

Qdrant 是向量数据库。

如果说 Ollama 是“大脑”，n8n 是“流程管家”，那 Qdrant 就是“语义图书馆”。

它专门存储这些东西：

PDF 拆分后的文本片段
每个片段对应的向量
文档来源信息
元数据

当用户提问时，系统不会从头读完整个 PDF。

它会先把问题转成向量，然后去 Qdrant 里找最相似的内容片段。

这一步非常关键。

因为大模型最后回答得好不好，很大程度取决于检索出来的内容准不准。

所以，一个 RAG 系统的质量，往往不是只看模型大小，而是看这几个环节：

文档切分是否合理
Embedding 模型是否合适
向量检索是否准确
Prompt 是否约束模型基于资料回答
是否返回来源依据

很多人做 RAG 翻车，不是模型不行，而是检索链路没做好。

六、PDF 问答机器人的完整工作逻辑

一个可用的本地 RAG 系统，一般分成两条链路。

第一条：入库链路。

也就是把 PDF 变成可检索的知识库。

流程大概是：

上传 PDF
   ↓
提取文本
   ↓
文本清洗
   ↓
按段落或 token 切块
   ↓
生成 Embedding
   ↓
写入 Qdrant

这里最容易被忽略的是“切块”。

如果切得太大，检索结果不精准；

如果切得太碎，上下文不完整。

比较推荐的方式是：

每块 500-1000 字左右
块与块之间保留一定重叠
保留标题、页码、章节信息
元数据里记录来源 PDF 和页码

这样后面回答时，既能找到相关内容，也能告诉用户依据来自哪里。

第二条：问答链路。

也就是用户提问之后，系统如何回答。

流程是：

用户问题
   ↓
问题转 Embedding
   ↓
Qdrant 检索 Top K 相关片段
   ↓
把片段放进 Prompt
   ↓
Ollama 生成回答
   ↓
返回答案和来源

真正实用的 Prompt 应该加上约束，例如：

你是一个基于本地知识库回答问题的助手。
请只根据检索到的文档内容回答。
如果文档中没有相关信息，请明确说“资料中没有找到依据”。
不要编造答案。
回答时尽量列出关键依据。

这句话很重要。

它能显著降低大模型“胡说八道”的概率。

七、这个方案适合哪些场景？

本地 RAG 不是只能用来问 PDF。

它适合很多高价值场景。

比如个人知识库：

读书笔记
论文资料
课程讲义
技术文档
研究报告

比如企业内部知识库：

员工手册
合同模板
产品文档
售后 FAQ
项目资料
招投标文件

比如专业工作流：

律师查合同
财务查报表
医疗查指南
工程师查技术规范
老师查教学资料
运营查历史方案

只要你的资料是文本型的，理论上都可以接入 RAG。

它不是替代搜索，而是升级搜索。

以前你是“找文档”；

现在你是“直接问资料”。

八、搭建时最容易踩的 5 个坑

很多人照着教程搭完之后，会发现：

“能跑是能跑，但答案不准。”

问题通常出在下面几个地方。

1. PDF 解析质量太差

有些 PDF 是扫描件，里面其实是图片，不是文本。

这种情况下需要先做 OCR，否则系统根本读不到内容。

建议：

文本 PDF：直接提取
扫描 PDF：先 OCR
表格 PDF：单独处理表格结构

2. 文档切块太随意

不要直接整页整页塞进去。

RAG 的检索单位是“文本块”，文本块质量决定检索质量。

建议按标题、段落、语义边界切分。

3. Embedding 模型选错

如果你的资料主要是中文，就尽量选中文效果好的 Embedding 模型。

否则会出现一个问题：

你问中文，检索出来的内容却不够相关。

4. Prompt 没有限制模型

如果你不明确要求“基于资料回答”，模型就可能凭自己的知识补充。

这在闲聊里没问题，但在知识库问答里很危险。

尤其是合同、医疗、财务、法律类场景，一定要限制幻觉。

5. 没有返回来源

一个好的 RAG 系统，不应该只给答案。

它最好还能告诉你：

答案来自哪个 PDF
哪一页
哪个章节
哪个片段

这一步决定了系统能不能真正被信任。

九、为什么 n8n + Ollama + Qdrant 是普通人最容易上手的组合？

因为这套组合刚好把三个难点拆开了。

n8n 解决流程问题。

你不用一上来就写复杂后端，可以用节点把流程搭起来。

Ollama 解决本地模型问题。

不用申请 API，不用每次请求云端，可以直接在本机或内网服务器运行。

Qdrant 解决语义检索问题。

它专门为向量搜索设计，比你自己拿数据库硬凑要稳定得多。

这三者组合起来，刚好形成一个本地 AI 应用闭环：

n8n：负责连接一切
Ollama：负责理解和生成
Qdrant：负责存储和检索知识

如果你只是想体验 AI 应用开发，这套方案足够轻量。

如果你想做企业内部知识库，这套方案也有继续扩展的空间。

十、进一步升级：让它从 Demo 变成生产力工具

如果你已经搭出了基础版，还可以继续加这些能力。

1. 多文档管理

让系统支持多个 PDF、多个知识库、多个业务分类。

比如：

合同库
产品库
财务库
运营库
技术文档库

用户提问时，可以指定知识库范围。

2. 来源引用

回答后自动附上引用：

依据来源：
《项目报告.pdf》第 12 页
《成本分析.pdf》第 6 页

这会让系统可信度大幅提升。

3. 问答记忆

图里的 Simple Memory 就是做这个的。

它可以让机器人记住上下文。

比如你先问：

“这份报告的核心结论是什么？”

然后继续问：

“第二点展开说一下。”

如果没有 Memory，系统可能不知道“第二点”指什么。

4. 权限控制

如果是企业内部使用，不同部门应该访问不同资料。

比如：

HR 只能看员工制度
销售只能看产品资料
财务只能看财务文件
管理层可以看全部资料

本地 RAG 真正进入企业场景时，权限是绕不开的。

5. 自动更新知识库

可以用 n8n 监听某个文件夹。

只要有新的 PDF 放进去，就自动解析、切块、向量化、入库。

这样知识库就能持续更新，而不是手动维护。

十一、这套系统真正厉害的地方

表面上看，它只是一个 PDF 问答机器人。

但往深了看，它代表的是一种新的工作方式：

不是人去翻资料，

而是资料主动回答人。

以前你管理文件，是靠文件夹、命名、标签、搜索。

以后你管理知识，是靠语义检索、上下文理解、智能问答。

这对个人和企业都很重要。

个人可以把自己的资料变成第二大脑。

企业可以把内部文档变成智能客服。

团队可以把沉睡的知识资产重新激活。

很多公司并不缺资料。

缺的是一种让资料被快速调用的方式。

而 RAG，就是这条路上最现实、最落地的方案之一。

最后说一句

AI 应用真正的分水岭，已经不是“会不会调用大模型”。

而是：

你能不能把大模型接进真实业务数据里。

n8n + Ollama + Qdrant 这套本地 RAG 方案，最大的价值就在于：

它让普通人也能拥有一个私有、安全、可控的知识库机器人。

如果你只是把 AI 当聊天工具，它可能只是一个玩具。

但如果你把它接进 PDF、文档、知识库、业务流程，它就会变成生产力系统。

觉得有用，点个❤支持，转发给有需要的朋友

往期热门：

DeepSeek API调用实战：从环境搭建到生产级应用的完整指南

让大模型不再胡说八道的那套核心技术：RAG 完整拆解

我用AI Agent炒A股，亏了3000块后顿悟了

DeepSeek V4这场仗打到这个份上，我已经看到太多人判断错了

5分钟学会用AI写爆款文案：打工人的文案神器指南孙宇晨、小特朗普、傅盛竟同时杀入同一条赛道！AI“二道贩子”生意，凭什么让大佬们眼红？2026 年最全拆解：LiteLLM 凭什么一统百个大模型？一文讲清大模型基本原理：Transformer、Token、Embedding、Attention 到底是什么？我用 n8n + OpenAI 做了一个“商业情报 Agent”：每天自动筛选 Web3、A股、美股、港股和 AIGC 机会