你好,我是方可乐。
一个从Java开发成功转型,聚焦 AI 编程、AI 应用和智能体开发的 AI 应用开发工程师。
经常有同学问我说“知识库是怎么做的”,如果答案只是RAG那套经典流程“内容切片——向量化——召回——交给大模型总结”,那几乎没什么秘密了。
真正实操后,也许你会发现,知识库总感觉不够聪明?因为这只是最底层的检索动作,不是知识库,甚至 AI 分身真正可用的原因。
三言两语讲不清,刚好我在AI Growth系统打造了一个AI分身。


AI分身应该做到什么程度,才算合格?
在AI Growth 平台里,AI 分身要解决的不是“能不能搜到文章”。而是:
1. 它能不能像方可乐一样和会员说话? 2. 能不能判断哪些内容真的能回答当前问题? 3. 能不能在证据不足时不硬编? 4. 能不能把回答背后的来源和维护链路留清楚?
真正可用的 AI 分身不是一个 RAG demo,而是一套“人格、知识、检索、判断、回答、调试、维护”组合起来的系统。
RAG 在里面只是知识工具,负责把可能相关的证据找出来。真正决定体验的,是系统能不能判断这些证据是否该用、能不能用,以及用完以后能不能被追溯和修正。
如果要把AI Growth 平台里的 AI 分身拆开,我觉得可以分成五层:
• 人格层:决定它像谁,说话方式、判断方式和边界是什么。 • 知识层:把文章、素材、私密经验整理成可维护的知识资产。 • 检索层:通过向量、关键词和重排找到候选证据。 • 判断层:决定本轮回答到底用知识库、混合回答、直接模型回答,还是说明证据不足。 • 产品层:会员端自然聊天,管理员端可调试、可看来源、可维护知识。
下面按流程、选型、细节坑点和后续完善,把这套系统讲清楚。
一、整体流程

在方可乐 AI Growth 平台里,会员端负责自然聊天、最近上下文理解、来源过滤和可展示来源返回;
管理员端知识库 Agent 调试入口,则会把检索策略、相关性审计、回答决策、模型、embedding 和向量库信息暴露出来,方便我们排查问题。
知识不是直接塞给模型。内容要先经过“知识确认层”,确认它是不是可以进入 AI 分身,来源是什么,能不能展示给会员,是否需要隐藏引用。召回不是最终答案。检索系统只负责找到候选片段,后面还有一层“相关性审计与来源过滤”。只有真正能回答当前问题的片段,才会进入最终回答。
二、知识入库流程
很多 RAG 系统的第一个错误,是把所有文本都当知识。
一个知识资产通常包括标题、摘要、标签、来源类型、来源文章、可见性和引用策略。
这里的“可见性”和“引用策略”很重要。有些知识是公开文章,可以在会员端展示为来源。有些知识来自私密经验,可以帮助 AI 理解方可乐的判断,但不能告诉会员“这段来自某个私聊或微信群”。
所以系统要区分两件事:
• 能不能用于回答。 • 能不能作为来源展示。
这两个问题不能混为一谈。否则 AI 分身要么不敢用真实经验,要么会把不该公开的内部信息暴露出去。
三、为什么 AI 分身不能只靠知识库
如果只有 RAG,回答会像资料摘要。用户问什么,系统就从知识库里摘一段,再组织一下。它可能准确,但不一定像“方可乐”。
所以 AI 分身需要人格层。人格层不负责塞知识,而是固定表达方式、判断方式和边界。
平台把方可乐的“人格协议”独立成一层稳定规则,里面包含身份定位、关注主题、表达风格、常见判断方式、禁止使用的浮夸话术、隐私边界、证据不足时的处理方式,以及回答前的自检要求。
会员端还会读取最近 6 轮左右的对话上下文,用来理解“继续”“展开第二点”“那结合我刚才的问题呢”这类追问。
知识库来源则只作为证据上下文进入回答,不会被塞进人格层。内部经验片段可以帮助回答,但如果来源被标记为私密或隐藏引用,就不能在会员端来源列表里暴露。
它要回答这些问题:
• 它是谁。 • 它关注什么。 • 它怎么判断问题。 • 它不应该说什么。 • 什么情况下必须说明证据不足。 • 什么时候要直接给结论,什么时候给路径。
这个层非常容易被误用。很多人会把大量文章正文塞进人格提示里,最后 prompt 又长又脏,模型既不像人,也不准。正确做法是:人格层只放稳定规则,知识层负责可追溯证据。这也是 AI 分身和普通知识库问答的区别。
知识库让它“知道材料”,人格层让它“像这个人说话”。
四、实际落地里的几个坑
第一个坑:知识越多不等于越好。脏内容、重复内容、过期内容、测试内容都进入知识库,会让召回越来越差。RAG 的质量不是由知识数量决定,而是由“可用知识资产”的质量决定。
第二个坑:向量相似不等于可引用。向量检索会找相似内容,但相似不代表能回答。尤其是技术词密集的内容,同一个工具名可能出现在很多文章里,但每篇文章解决的问题不同。
第三个坑:私密来源要能用但不能展示。AI 分身需要真实经验支撑,但不是所有经验都能作为会员端来源展示。所以系统必须同时支持“内部可用”和“外部可见”的权限边界。
第四个坑:不要每次都输出长报告。AI 分身是聊天产品,不是报告生成器。用户问“是什么”,就先讲清楚是什么;用户问“怎么做”,再给步骤;用户问“继续展开”,才结合上下文深入。
工程上要区分“链路是否正确”和“语义效果是否足够好”。前者可以用稳定的模拟能力验证,后者再用真实服务专项评估。
总结
AI Growth 平台里的 AI 分身,不是简单的“文章向量化 + 大模型回答”。更准确地说,它是一套产品化 RAG Agent:
• 用人格层保证它像方可乐,而不是像普通机器人。 • 用知识确认层保证入库内容可维护、可追溯。 • 用切片和 embedding 提升语义召回能力。 • 用业务数据库和向量索引分离,保证系统可重建。
RAG 在这里不是终点,而是 AI 分身的证据系统。真正让它可用的,是人格、知识、检索、判断、权限、来源和持续维护一起形成闭环。
如果你也在做知识库或者基于知识库的AI分身,建议不要一开始就把问题理解成“接一个向量库”。
先想清楚:这个 AI 到底代表谁说话、依据从哪里来、哪些内容能展示、回答错了怎么排查、知识过期了怎么维护。
把这些边界想清楚,RAG 才会从 demo 变成产品能力。
如果你正在做自己的 AI 分身,或者想搞明白知识库到底该怎么落地,可以加入我的AI成长圈,持续交流,阅读我的对AI分身的深度拆解文章。

写在最后
2026,我正在做一个AI成长圈,一个聚集同行者的微信群,目前已经有不少同学加入。AI探索这件事,一个同频的圈子,一群共同前行的人,才能走得更快,更远。
我越来越清楚,AI Growth的核心价值,不只是“我做了一个网站”。它真正承载的是:我的经验筛选、我的实践路径、我的内容体系、我的 AI 分身,以及我和大家一起持续成长的过程。
目前AI Growth这个平台我只做了邀请制。
给有意向加入的用户,发放邀请码:先体验平台的能力,阅读部分文章,开放部分资源,有限制的AI分身问答。
给会员用户,直接发放会员码:提供完整的平台能力,主要包括AI七大道玩法的全解锁,会员专属文章的阅读,无限制的AI分身问答。
未来,我会继续把AI Growth打造成一个更完整的 AI 实战成长系统。这里既有学习路径,也有实战任务;既有我的经验沉淀,也会连接更多优质资源。
对我来说,这不是一个一次性项目,而是我的 AI IP 长期系统化的一次开始。
目前,2026年度,可乐AI成长圈的价格是 159
我会把自己真实的开发经验、工程复盘、模型探索路径
第一时间在这里分享给圈里的伙伴。一起走、一起试、一起成长。
加入可乐的AI成长圈,你将获得:
• 可随时在群里向我提问(AI 编程,工程链路、模型选型,学习路径等)
• 我的新 AI 应用都可免费优先体验
• 每个应用都会有工程复盘、踩坑记录、选型思路
• 一条真正可复制的 AI 成长路线
• AI成长圈平台的完整会员权益
感兴趣的同学,欢迎加我微信咨询加入。

夜雨聆风