📡 AI 大模型每日精读
📅 2026年6月9日(周二)
━━━━━━━━━━━━━━━━━━━━━━
【大模型科普】RAG(下):检索怎么做 + 生成怎么搭 + 常见坑
上周我们聊了 RAG 为什么火——它让大模型能"查资料再回答",解决了幻觉和时效性问题。今天落地实战:检索和生成到底怎么搭?
🔍 检索端:别只用一个向量搜索
很多人以为 RAG 检索 = 把用户问题转成向量,去向量库搜相似 chunk。但这远远不够。
实战中通常做两阶段检索:
1️⃣ 关键词检索(BM25)召回精确匹配片段(人名、编号、术语)
2️⃣ 向量检索(Embedding + Faiss / Milvus)召回语义相似片段
3️⃣ 用 Reciprocal Rank Fusion 把两条结果合并排序
效果提升 20%~50%。原因很简单:向量擅长"意思相近",BM25 擅长"关键词命中",互补的。
还有个容易被忽略的点:chunk 切分策略。固定 512 token 切?错。按 Markdown 标题/段落边界切,再保留前后各一段做 overlap,检索召回率高得多。推荐工具:LangChain 的 RecursiveCharacterTextSplitter,或者 Unstructured.io 的智能切分。
⚙️ 生成端:别直接把 chunks 塞给 LLM
检索回来的 top-K 片段,你用什么 Prompt 灌进去?很多人写:"根据以下资料回答问题"。这就太粗糙了。
实战要写三层指令:
• 角色约束:"你是一个客服助手,只根据提供的资料回答"
• 引用规范:"回答末标注引用的资料编号 [1][2]"
• 拒绝策略:"如果资料不足以回答问题,请说'我没有查到相关信息',不要编造"
同时控制 context window——top-K 取 3~5 段,超过 8 段反而让模型"迷失"在信息海洋中。
⚠️ 常见坑,新手必踩
1️⃣ 检索不到关键信息 → 检查 Embedding 模型是否和业务领域匹配。通用 bge-large 对法律/医疗文档效果差,需要领域微调
2️⃣ 生成重复信息 → 多个 chunk 内容重叠,模型来回引用。解决:检索去重 + LLM 端加"不要重复引用相似内容"
3️⃣ token 数爆涨 → 每轮检索都塞 full chunks。解决:对长 chunk 做摘要压缩(Llamaindex 有自动压缩器)
4️⃣ 用户问题太模糊 → 先用一个小 LLM 做 query rewriting,把"那个项目怎么样了"改写为"2026年Q2的XX项目进展如何",再去检索
RAG 不是把"搜索 + 聊天"拼在一起就行,它是系统工程。但在生产环境中,这套组合拳直接让 LLM 回答准确率从 60% 拉升到 90%+。
📌 推荐阅读:LlamaIndex 官方教程的 RAG 章节(github.com/run-llama/llama_index)
【精选工具】Cursor + Claude 3.5 Sonnet:AI 编程的事实标准
2026 年,如果你还在 VS Code 里手动敲代码 + 偶尔问 ChatGPT,效率至少落后同行一倍。Cursor 已经成了 AI 编程的"事实 IDE"。
🔧 为什么是 Cursor 而不是 Copilot?
GitHub Copilot 的补全很准,但"对话式编程"才是真正的质变。Cursor 内置的 Chat 面板支持 @Files、@Docs、@Web,你可以说"帮我重构 user_service.py 里的错误处理逻辑,用 Result 模式替换 try-except",它直接看懂整个文件上下文,改完还生成 diff 给你审批。
⚡ 实战用法
57. Ctrl+K 内联编辑:选中一段代码,按 Ctrl+K 输入"加中文注释 + 处理边界值 x=0",光标不动代码改完
58. Agent 模式(最新杀手功能):输入"搭一个 Flask WebSocket 服务,后端做实时聊天,前端用 Vue3 + Socket.io",Cursor 自动生成前后端全部文件,还能帮你装依赖
59. Rules 系统:项目根目录建 .cursorrules,写入"所有 API 返回统一格式 {code, data, message}",生成新代码自动遵守
💡 替代品一句话
Windsurf(Codeium 出品)的 Cascade 模式也很强,Flow 视角能看到 AI 思考过程,不过整体代码质量略逊 Cursor。选哪个?重度 AI 编程选 Cursor,喜欢透明流程的试 Windsurf。
【精选工具】Claude Code:终端里的 AI 工程师
如果你习惯用终端,Claude Code 是 2026 年最值得上手的 CLI 编程工具。Anthropic 出品,直接从命令行理解你的整个 Git 仓库。
🔥 怎么用
安装就一行:
npm install -g @anthropic-ai/claude-code
cd your-project
claude然后你就进入了一个 AI REPL。你可以说"帮我看看这些 test 失败的原因",它自动跑测试、读日志、定位代码,然后给修复方案。实际测试:让 Claude Code 把一个 Python 脚本改写成 Go 版本,带 CLI 参数解析 + 单元测试,5 分钟搞定,代码直接能跑。
📌 和 Cursor 的区别
Cursor 是 IDE 插件式体验,适合"在编辑器里边写边问"。Claude Code 是终端式体验,适合"重构、debug、迁移"这类大活。两个都装,各取所长。
【行业动态】Google Gemini 2.5 Pro 新增 2M Token 上下文窗口
Google 本周宣布 Gemini 2.5 Pro 的上下文窗口从 1M 扩展到 2M token——相当于一次吃下《三体》三部曲 + 哈利波特全集还要多。实测可以在一次对话中上传完整代码库(约 15 万行 Python)并让模型理解全局架构。同时引入了"主动思考"模式(默认关闭),模型会在回答前输出推理过程,类似 OpenAI o1 的思维链。
影响:长上下文竞争进入"兆 token"时代,RAG 的"分段检索"策略面临重新审视——某些场景下全量上下文可能比检索+拼接更准。
━━━━━━━━━━━━━━━━━━━━━━
📬 明日预告:AI Agent(上)——它不是聊天机器人,它是什么
夜雨聆风