AI 大模型每日精读

📡 AI 大模型每日精读

📅 2026年6月9日（周二）

━━━━━━━━━━━━━━━━━━━━━━

【大模型科普】RAG（下）：检索怎么做 + 生成怎么搭 + 常见坑

上周我们聊了 RAG 为什么火——它让大模型能"查资料再回答"，解决了幻觉和时效性问题。今天落地实战：检索和生成到底怎么搭？

🔍 检索端：别只用一个向量搜索

很多人以为 RAG 检索 = 把用户问题转成向量，去向量库搜相似 chunk。但这远远不够。

实战中通常做两阶段检索：

1️⃣ 关键词检索（BM25）召回精确匹配片段（人名、编号、术语）

2️⃣ 向量检索（Embedding + Faiss / Milvus）召回语义相似片段

3️⃣ 用 Reciprocal Rank Fusion 把两条结果合并排序

效果提升 20%~50%。原因很简单：向量擅长"意思相近"，BM25 擅长"关键词命中"，互补的。

还有个容易被忽略的点：chunk 切分策略。固定 512 token 切？错。按 Markdown 标题/段落边界切，再保留前后各一段做 overlap，检索召回率高得多。推荐工具：LangChain 的 RecursiveCharacterTextSplitter，或者 Unstructured.io 的智能切分。

⚙️ 生成端：别直接把 chunks 塞给 LLM

检索回来的 top-K 片段，你用什么 Prompt 灌进去？很多人写："根据以下资料回答问题"。这就太粗糙了。

实战要写三层指令：

• 角色约束："你是一个客服助手，只根据提供的资料回答"

• 引用规范："回答末标注引用的资料编号 [1][2]"

• 拒绝策略："如果资料不足以回答问题，请说'我没有查到相关信息'，不要编造"

同时控制 context window——top-K 取 3~5 段，超过 8 段反而让模型"迷失"在信息海洋中。

⚠️ 常见坑，新手必踩

1️⃣ 检索不到关键信息 → 检查 Embedding 模型是否和业务领域匹配。通用 bge-large 对法律/医疗文档效果差，需要领域微调

2️⃣ 生成重复信息 → 多个 chunk 内容重叠，模型来回引用。解决：检索去重 + LLM 端加"不要重复引用相似内容"

3️⃣ token 数爆涨 → 每轮检索都塞 full chunks。解决：对长 chunk 做摘要压缩（Llamaindex 有自动压缩器）

4️⃣ 用户问题太模糊 → 先用一个小 LLM 做 query rewriting，把"那个项目怎么样了"改写为"2026年Q2的XX项目进展如何"，再去检索

RAG 不是把"搜索 + 聊天"拼在一起就行，它是系统工程。但在生产环境中，这套组合拳直接让 LLM 回答准确率从 60% 拉升到 90%+。

📌 推荐阅读：LlamaIndex 官方教程的 RAG 章节（github.com/run-llama/llama_index）

【精选工具】Cursor + Claude 3.5 Sonnet：AI 编程的事实标准

2026 年，如果你还在 VS Code 里手动敲代码 + 偶尔问 ChatGPT，效率至少落后同行一倍。Cursor 已经成了 AI 编程的"事实 IDE"。

🔧 为什么是 Cursor 而不是 Copilot？

GitHub Copilot 的补全很准，但"对话式编程"才是真正的质变。Cursor 内置的 Chat 面板支持 @Files、@Docs、@Web，你可以说"帮我重构 user_service.py 里的错误处理逻辑，用 Result 模式替换 try-except"，它直接看懂整个文件上下文，改完还生成 diff 给你审批。

⚡ 实战用法

57. Ctrl+K 内联编辑：选中一段代码，按 Ctrl+K 输入"加中文注释 + 处理边界值 x=0"，光标不动代码改完

58. Agent 模式（最新杀手功能）：输入"搭一个 Flask WebSocket 服务，后端做实时聊天，前端用 Vue3 + Socket.io"，Cursor 自动生成前后端全部文件，还能帮你装依赖

59. Rules 系统：项目根目录建 .cursorrules，写入"所有 API 返回统一格式 {code, data, message}"，生成新代码自动遵守

💡 替代品一句话

Windsurf（Codeium 出品）的 Cascade 模式也很强，Flow 视角能看到 AI 思考过程，不过整体代码质量略逊 Cursor。选哪个？重度 AI 编程选 Cursor，喜欢透明流程的试 Windsurf。

【精选工具】Claude Code：终端里的 AI 工程师

如果你习惯用终端，Claude Code 是 2026 年最值得上手的 CLI 编程工具。Anthropic 出品，直接从命令行理解你的整个 Git 仓库。

🔥 怎么用

安装就一行：

npm install -g @anthropic-ai/claude-code
cd your-project
claude

然后你就进入了一个 AI REPL。你可以说"帮我看看这些 test 失败的原因"，它自动跑测试、读日志、定位代码，然后给修复方案。实际测试：让 Claude Code 把一个 Python 脚本改写成 Go 版本，带 CLI 参数解析 + 单元测试，5 分钟搞定，代码直接能跑。

📌 和 Cursor 的区别

Cursor 是 IDE 插件式体验，适合"在编辑器里边写边问"。Claude Code 是终端式体验，适合"重构、debug、迁移"这类大活。两个都装，各取所长。

【行业动态】Google Gemini 2.5 Pro 新增 2M Token 上下文窗口

Google 本周宣布 Gemini 2.5 Pro 的上下文窗口从 1M 扩展到 2M token——相当于一次吃下《三体》三部曲 + 哈利波特全集还要多。实测可以在一次对话中上传完整代码库（约 15 万行 Python）并让模型理解全局架构。同时引入了"主动思考"模式（默认关闭），模型会在回答前输出推理过程，类似 OpenAI o1 的思维链。

影响：长上下文竞争进入"兆 token"时代，RAG 的"分段检索"策略面临重新审视——某些场景下全量上下文可能比检索+拼接更准。

━━━━━━━━━━━━━━━━━━━━━━

📬 明日预告：AI Agent（上）——它不是聊天机器人，它是什么