AI分身 x 个人知识库怎么做?揭秘方可乐AI Growth系统如何从0实现

你好，我是方可乐。

一个从Java开发成功转型，聚焦 AI 编程、AI 应用和智能体开发的 AI 应用开发工程师。

经常有同学问我说“知识库是怎么做的”，如果答案只是RAG那套经典流程“内容切片——向量化——召回——交给大模型总结”，那几乎没什么秘密了。

真正实操后，也许你会发现，知识库总感觉不够聪明？因为这只是最底层的检索动作，不是知识库，甚至 AI 分身真正可用的原因。

三言两语讲不清，刚好我在AI Growth系统打造了一个AI分身。

下面，我们来逐步解析揭秘。

AI分身应该做到什么程度，才算合格？

在AI Growth 平台里，AI 分身要解决的不是“能不能搜到文章”。而是：

1. 它能不能像方可乐一样和会员说话？
2. 能不能判断哪些内容真的能回答当前问题？
3. 能不能在证据不足时不硬编？
4. 能不能把回答背后的来源和维护链路留清楚？

真正可用的 AI 分身不是一个 RAG demo，而是一套“人格、知识、检索、判断、回答、调试、维护”组合起来的系统。

RAG 在里面只是知识工具，负责把可能相关的证据找出来。真正决定体验的，是系统能不能判断这些证据是否该用、能不能用，以及用完以后能不能被追溯和修正。

如果要把AI Growth 平台里的 AI 分身拆开，我觉得可以分成五层：

• 人格层：决定它像谁，说话方式、判断方式和边界是什么。
• 知识层：把文章、素材、私密经验整理成可维护的知识资产。
• 检索层：通过向量、关键词和重排找到候选证据。
• 判断层：决定本轮回答到底用知识库、混合回答、直接模型回答，还是说明证据不足。
• 产品层：会员端自然聊天，管理员端可调试、可看来源、可维护知识。

下面按流程、选型、细节坑点和后续完善，把这套系统讲清楚。

一、整体流程

在方可乐 AI Growth 平台里，会员端负责自然聊天、最近上下文理解、来源过滤和可展示来源返回；

管理员端知识库 Agent 调试入口，则会把检索策略、相关性审计、回答决策、模型、embedding 和向量库信息暴露出来，方便我们排查问题。

知识不是直接塞给模型。内容要先经过“知识确认层”，确认它是不是可以进入 AI 分身，来源是什么，能不能展示给会员，是否需要隐藏引用。召回不是最终答案。检索系统只负责找到候选片段，后面还有一层“相关性审计与来源过滤”。只有真正能回答当前问题的片段，才会进入最终回答。

二、知识入库流程

很多 RAG 系统的第一个错误，是把所有文本都当知识。

文章正文、公众号尾巴、重复标题、测试内容、私密聊天片段、过期观点，全都向量化。这样前期看起来“知识库很丰富”，后期会变成召回污染。

我的处理方式是：先把原始内容变成知识资产，再进入索引。

一个知识资产通常包括标题、摘要、标签、来源类型、来源文章、可见性和引用策略。

这里的“可见性”和“引用策略”很重要。有些知识是公开文章，可以在会员端展示为来源。有些知识来自私密经验，可以帮助 AI 理解方可乐的判断，但不能告诉会员“这段来自某个私聊或微信群”。

所以系统要区分两件事：

• 能不能用于回答。
• 能不能作为来源展示。

这两个问题不能混为一谈。否则 AI 分身要么不敢用真实经验，要么会把不该公开的内部信息暴露出去。

三、为什么 AI 分身不能只靠知识库

如果只有 RAG，回答会像资料摘要。用户问什么，系统就从知识库里摘一段，再组织一下。它可能准确，但不一定像“方可乐”。

所以 AI 分身需要人格层。人格层不负责塞知识，而是固定表达方式、判断方式和边界。

平台把方可乐的“人格协议”独立成一层稳定规则，里面包含身份定位、关注主题、表达风格、常见判断方式、禁止使用的浮夸话术、隐私边界、证据不足时的处理方式，以及回答前的自检要求。

会员端还会读取最近 6 轮左右的对话上下文，用来理解“继续”“展开第二点”“那结合我刚才的问题呢”这类追问。

知识库来源则只作为证据上下文进入回答，不会被塞进人格层。内部经验片段可以帮助回答，但如果来源被标记为私密或隐藏引用，就不能在会员端来源列表里暴露。

它要回答这些问题：

• 它是谁。
• 它关注什么。
• 它怎么判断问题。
• 它不应该说什么。
• 什么情况下必须说明证据不足。
• 什么时候要直接给结论，什么时候给路径。

这个层非常容易被误用。很多人会把大量文章正文塞进人格提示里，最后 prompt 又长又脏，模型既不像人，也不准。正确做法是：人格层只放稳定规则，知识层负责可追溯证据。这也是 AI 分身和普通知识库问答的区别。

知识库让它“知道材料”，人格层让它“像这个人说话”。

四、实际落地里的几个坑

第一个坑：知识越多不等于越好。脏内容、重复内容、过期内容、测试内容都进入知识库，会让召回越来越差。RAG 的质量不是由知识数量决定，而是由“可用知识资产”的质量决定。

第二个坑：向量相似不等于可引用。向量检索会找相似内容，但相似不代表能回答。尤其是技术词密集的内容，同一个工具名可能出现在很多文章里，但每篇文章解决的问题不同。

第三个坑：私密来源要能用但不能展示。AI 分身需要真实经验支撑，但不是所有经验都能作为会员端来源展示。所以系统必须同时支持“内部可用”和“外部可见”的权限边界。

第四个坑：不要每次都输出长报告。AI 分身是聊天产品，不是报告生成器。用户问“是什么”，就先讲清楚是什么；用户问“怎么做”，再给步骤；用户问“继续展开”，才结合上下文深入。

工程上要区分“链路是否正确”和“语义效果是否足够好”。前者可以用稳定的模拟能力验证，后者再用真实服务专项评估。

总结

AI Growth 平台里的 AI 分身，不是简单的“文章向量化 + 大模型回答”。更准确地说，它是一套产品化 RAG Agent：

• 用人格层保证它像方可乐，而不是像普通机器人。
• 用知识确认层保证入库内容可维护、可追溯。
• 用切片和 embedding 提升语义召回能力。
• 用业务数据库和向量索引分离，保证系统可重建。

RAG 在这里不是终点，而是 AI 分身的证据系统。真正让它可用的，是人格、知识、检索、判断、权限、来源和持续维护一起形成闭环。

如果你也在做知识库或者基于知识库的AI分身，建议不要一开始就把问题理解成“接一个向量库”。

先想清楚：这个 AI 到底代表谁说话、依据从哪里来、哪些内容能展示、回答错了怎么排查、知识过期了怎么维护。

把这些边界想清楚，RAG 才会从 demo 变成产品能力。

如果你正在做自己的 AI 分身，或者想搞明白知识库到底该怎么落地，可以加入我的AI成长圈，持续交流，阅读我的对AI分身的深度拆解文章。

写在最后

2026，我正在做一个AI成长圈，一个聚集同行者的微信群，目前已经有不少同学加入。AI探索这件事，一个同频的圈子，一群共同前行的人，才能走得更快，更远。

我越来越清楚，AI Growth的核心价值，不只是“我做了一个网站”。它真正承载的是：我的经验筛选、我的实践路径、我的内容体系、我的 AI 分身，以及我和大家一起持续成长的过程。

目前AI Growth这个平台我只做了邀请制。

给有意向加入的用户，发放邀请码：先体验平台的能力，阅读部分文章，开放部分资源，有限制的AI分身问答。

给会员用户，直接发放会员码：提供完整的平台能力，主要包括AI七大道玩法的全解锁，会员专属文章的阅读，无限制的AI分身问答。

未来，我会继续把AI Growth打造成一个更完整的 AI 实战成长系统。这里既有学习路径，也有实战任务；既有我的经验沉淀，也会连接更多优质资源。

对我来说，这不是一个一次性项目，而是我的 AI IP 长期系统化的一次开始。

目前，2026年度，可乐AI成长圈的价格是 159

我会把自己真实的开发经验、工程复盘、模型探索路径

第一时间在这里分享给圈里的伙伴。一起走、一起试、一起成长。

加入可乐的AI成长圈，你将获得：

• 可随时在群里向我提问（AI 编程，工程链路、模型选型，学习路径等）

• 我的新 AI 应用都可免费优先体验

• 每个应用都会有工程复盘、踩坑记录、选型思路

• 一条真正可复制的 AI 成长路线

• AI成长圈平台的完整会员权益

感兴趣的同学，欢迎加我微信咨询加入。