50万份内部文档,BM25竟打败向量搜索

50 万份模拟企业内部文档实测，传统 BM25 居然在综合准确率上干翻了向量搜索。这对我们整理甲方反馈和设计素材库来说，是个实打实的信号。

Redwood Inference 数据集涵盖 50 万份跨平台内部文档，还原真实协作环境
BM25 在整体正确率和文档召回上表现更强，向量搜索在语义题上反而拉胯
智能体检索查全率最高但成本昂贵，精准喂对上下文才是出好答案的前提

企业级知识库的脏数据真相

搞过团队协作的都知道，真实的资料从来不是干净的排版页面。这套 EnterpriseRAG-Bench 基准测试，特意模拟了 Redwood Inference 这家公司的日常流转。数据横跨 Slack、Gmail、Linear、Google Drive、HubSpot、Fireflies、GitHub、Jira 和 Confluence，总量逼近 50 万份。生成管线没有无脑堆量，而是先通过 human-in-the-loop 人工介入流程定义公司业务架构、产品线、团队分工和内部术语。接着生成高层级项目拆解，每个项目跨平台产出 PRD、Slack 讨论串、会议纪要、工单和客户备注，并附带 agents.md 规范文件约束各区域文档形态，确保文档之间存在真实的交叉引用和依赖关系。为了防止大模型生成同质化废话，他们引入了主题脚手架，并刻意塞入随机错位文件、过时信息、甚至梗图和黑客松草稿。最后抛出 500 道测试题，覆盖单文档查找、跨长文档推理、带干扰项的约束查询、以及无解问题等 10 个检索失效场景。这比用公开网页测出来的结果，贴近我们日常接活时的混乱素材库太多。

跑分结果直接给盲目迷信向量数据库的搭建思路泼了冷水。官方给出的基线数据非常直观，对我们挑工具很有参考价值：

BM25 意外强势：在 50 万文档规模下，整体正确率和文档召回率直接碾压向量搜索，连专门降低关键词重叠的语义题也没让向量搜索占到便宜
Agentic/bash 风格检索查全率拔尖：遇到需要顺藤摸瓜探索关联文件的复杂需求时表现最好，但速度慢且 API 调用成本极高
评估机制带纠错能力：由于数据量太大无法保证初始答案绝对完美，评估框架会自动判断召回文档的有效性，有证据支持时动态更新标准答案

核心结论很直白：只要把对的材料塞进上下文，现有大模型基本都能给出靠谱回复。选对检索层比死磕大模型本身更省钱。

如果你正在给工作室或自媒体团队搭内部知识库，或者想测试手里的 RAG 方案到底能不能处理带口语化沟通、多版本迭代的真实项目文件，可以直接拿这套开源基准去压测。仓库里把完整数据集、生成框架、评估管线和排行榜都打包公开了。你可以自由接入混合搜索、重排器、元数据过滤、查询重写或图谱遍历等配置，看看哪种组合最适合你的业务流。

项目仓库：https://github.com/onyx-dot-app/EnterpriseRAG-Bench

克隆到本地即可运行评估工具。对于习惯用本地 NAS 或云盘管设计资产、甲方反馈的创作者来说，先用这套基准摸清检索层的短板，能避开不少买昂贵算力接口的坑，把预算花在刀刃上。

留言聊聊
你给团队搭资料库时，主力用的是传统关键词匹配还是向量检索？遇到多版本冲突文件时一般怎么解？

来源：Reddit LocalLLaMA｜原文：An Open Benchmark for Testing RAG on Realistic Com