手把手教程:在自己电脑上跑大模型,搭一个只属于你的私人知识库(RAG)

ChatGPT、Claude 用着很爽，但有三件事一直让人不踏实：一是隐私，公司合同、客户资料、个人笔记，每问一句都在往云端传；二是成本，几个会员订阅加 API 调用，一年下来不是小数目；三是离线，飞机上、内网里、信号差的地方，想用却连不上。

这篇教程就解决这三个痛点：把大模型装进自己的电脑，再喂给它你自己的资料，让它变成一个"读过你全部文档、还断网可用"的私人助手。整个过程不用写代码，跟着做，一小时就能跑起来。

先用一分钟搞懂 RAG 是什么

很多人以为"让 AI 读我的文档"就是把文件丢给它训练，其实不是。重新训练一个模型既贵又慢，普通人根本玩不起。真正实用的方案叫RAG（检索增强生成），思路特别朴素：

不改动模型本身，而是在它回答之前，先从你的资料库里"翻书"，把最相关的几段内容找出来，连同你的问题一起递给模型，让它"看着资料回答"。

打个比方：模型是一个知识渊博但没读过你公司文件的专家，RAG 就是在他回答前，先帮他把相关那几页文件翻开摆在桌上。专家还是那个专家，但现在他能引用你的资料了。

它的完整流程是这样的：你的文档先被切成一小段一小段（chunking），每段用"嵌入模型"转成一串数字向量存进向量库；提问时，问题也被转成向量，系统在库里找出最相似的几段，拼进提示词喂给对话模型，最后生成带依据的回答。

准备工作：你的电脑够用吗

好消息是，2026 年的本地模型门槛已经很低，普通电脑也能跑。关键看内存（或显存）：

8GB 内存：能跑 1B～3B 的小模型，回答速度尚可，适合做摘要、改写这类简单任务。

16GB 内存：能流畅跑 7B～8B 模型，这是体验和性能的甜点区，日常问答、知识库检索都够用。

32GB 及以上：可以挑战 14B～32B 模型，回答质量明显更好。

Apple Silicon（M 系列）：统一内存架构对跑模型特别友好，同样内存下表现常常接近入门独显机器。

没有独立显卡也别灰心，纯 CPU 模式下跑量化后的 7B 模型完全可用，只是速度慢一些。先从小模型起步，跑顺了再往上加。

第一步：安装 Ollama，跑起第一个模型

Ollama 是目前最省心的本地模型运行工具，可以理解成"大模型界的 Docker"——一条命令拉模型，自带一个标准接口供其他软件调用。它安装包很小，启动快，资源占用低。

到官网下载对应系统的安装包，双击安装。装好后打开终端，输入一行命令就能下载并运行模型，比如运行一个中文表现不错的 8B 模型：

bash

ollama run qwen3:8b

第一次会自动下载模型文件（几个 GB，取决于网速），下完之后直接进入对话，以后秒级启动。如果你完全不想碰命令行，可以换成LM Studio——它是图形界面，搜索、下载、运行全靠点鼠标，界面和 ChatGPT 很像，对新手零门槛。两者引擎能力相近，区别只是命令行还是图形界面，按你的习惯选就行。

第二步：除了对话模型，还要装一个"嵌入模型"

这一步最容易被忽略，却是知识库能不能用好的关键。前面说过，RAG 要把文档转成向量，干这件事的是专门的嵌入模型（embedding model），它和聊天用的对话模型是两回事，必须单独下载。

用 Ollama 拉一个常用的嵌入模型：

bash

ollama pull nomic-embed-text

记住这个搭配：一个对话模型负责"说话"，一个嵌入模型负责"理解和检索文档"，两个缺一不可。中文资料多的话，也可以选 bge 系列的中文嵌入模型，检索更准。

第三步：用客户端搭起知识库

模型就位后，需要一个"知识库客户端"把它们串起来。推荐两个免费、跨平台、纯界面操作的：

Cherry Studio是目前体验最顺手的一个，安装简单，Mac、Windows、Linux 都能用，知识库回答的全面性在实测里常常优于同类。AnythingLLM则在文档管理和"工作区隔离"上更强，适合按项目、按部门把不同资料分开管理。

以 Cherry Studio 为例，搭建过程就三件事：在设置里把模型来源指向本地 Ollama（地址填本机回环地址即可）；分别选好对话模型和嵌入模型；然后新建一个知识库，把你的 PDF、Word、Markdown 拖进去等它处理完。之后在对话框选中这个知识库提问，AI 就会"看着你的资料"回答了。

工具怎么选，一张图说清

入门和个人用，Ollama + Cherry Studio是最省心的组合。如果你要管理大量文档、做长期知识体系，用AnythingLLM。如果是团队要做产品级应用、需要可视化工作流，再考虑部署更重的Dify或RAGFlow——但它们要 Docker、配置复杂，个人玩没必要上来就碰。

几个让效果立刻变好的实战技巧

很多人搭完发现"AI 答得不准"，往往不是模型差，而是细节没调好：

切片大小要合适

：每段太长会塞进无关信息，太短又会切碎语义。中文资料一般每段 300～500 字、相邻段落留一点重叠，效果比较稳。

嵌入模型选对：中文为主就用中文嵌入模型，别用纯英文模型硬扛，检索准确率差很多。

资料先清洗：扫描版 PDF 要先做文字识别（OCR），否则 AI"看不见"里面的字。表格、目录这类噪声尽量去掉。

提问要具体：知识库不是搜索引擎，问"第三季度华东区退货政策是什么"远比问"退货"得到的答案精准。

小模型起步：先用 7B/8B 跑通整个流程，确认搭法没问题，再换更大的模型提升质量，避免一上来就被硬件卡住。

几个常见的坑

模型下载卡住，多半是网络问题，可以配置国内镜像源或换时间段重试。回答驴唇不对马嘴，先检查是不是漏装了嵌入模型，或者知识库还没处理完。回答速度慢，要么是模型相对硬件偏大，要么是没用上 GPU，换小一号的量化模型通常立竿见影。

写在最后

本地大模型 + RAG，本质上是把"通用 AI"变成"懂你的 AI"。它不追求最强性能，而是把隐私、成本、可控性这三件事一次性解决。对个人来说，它是一个永远在线、读过你全部笔记的助理；对小团队来说，它是一个数据不出内网的知识中枢。

工具和模型每隔几个月就会更新，但这套"运行工具 + 对话模型 + 嵌入模型 + 知识库客户端"的骨架是稳定的。今天先把流程跑通，比等一个"完美时机"重要得多。