50 万份模拟企业内部文档实测,传统 BM25 居然在综合准确率上干翻了向量搜索。这对我们整理甲方反馈和设计素材库来说,是个实打实的信号。
- Redwood Inference 数据集涵盖 50 万份跨平台内部文档,还原真实协作环境
- BM25 在整体正确率和文档召回上表现更强,向量搜索在语义题上反而拉胯
- 智能体检索查全率最高但成本昂贵,精准喂对上下文才是出好答案的前提
企业级知识库的脏数据真相
搞过团队协作的都知道,真实的资料从来不是干净的排版页面。这套 EnterpriseRAG-Bench 基准测试,特意模拟了 Redwood Inference 这家公司的日常流转。数据横跨 Slack、Gmail、Linear、Google Drive、HubSpot、Fireflies、GitHub、Jira 和 Confluence,总量逼近 50 万份。生成管线没有无脑堆量,而是先通过 human-in-the-loop 人工介入流程定义公司业务架构、产品线、团队分工和内部术语。接着生成高层级项目拆解,每个项目跨平台产出 PRD、Slack 讨论串、会议纪要、工单和客户备注,并附带 agents.md 规范文件约束各区域文档形态,确保文档之间存在真实的交叉引用和依赖关系。为了防止大模型生成同质化废话,他们引入了主题脚手架,并刻意塞入随机错位文件、过时信息、甚至梗图和黑客松草稿。最后抛出 500 道测试题,覆盖单文档查找、跨长文档推理、带干扰项的约束查询、以及无解问题等 10 个检索失效场景。这比用公开网页测出来的结果,贴近我们日常接活时的混乱素材库太多。
跑分结果直接给盲目迷信向量数据库的搭建思路泼了冷水。官方给出的基线数据非常直观,对我们挑工具很有参考价值:
- BM25 意外强势:在 50 万文档规模下,整体正确率和文档召回率直接碾压向量搜索,连专门降低关键词重叠的语义题也没让向量搜索占到便宜
- Agentic/bash 风格检索查全率拔尖:遇到需要顺藤摸瓜探索关联文件的复杂需求时表现最好,但速度慢且 API 调用成本极高
- 评估机制带纠错能力:由于数据量太大无法保证初始答案绝对完美,评估框架会自动判断召回文档的有效性,有证据支持时动态更新标准答案
核心结论很直白:只要把对的材料塞进上下文,现有大模型基本都能给出靠谱回复。选对检索层比死磕大模型本身更省钱。
如果你正在给工作室或自媒体团队搭内部知识库,或者想测试手里的 RAG 方案到底能不能处理带口语化沟通、多版本迭代的真实项目文件,可以直接拿这套开源基准去压测。仓库里把完整数据集、生成框架、评估管线和排行榜都打包公开了。你可以自由接入混合搜索、重排器、元数据过滤、查询重写或图谱遍历等配置,看看哪种组合最适合你的业务流。
项目仓库:https://github.com/onyx-dot-app/EnterpriseRAG-Bench
克隆到本地即可运行评估工具。对于习惯用本地 NAS 或云盘管设计资产、甲方反馈的创作者来说,先用这套基准摸清检索层的短板,能避开不少买昂贵算力接口的坑,把预算花在刀刃上。
留言聊聊
你给团队搭资料库时,主力用的是传统关键词匹配还是向量检索?遇到多版本冲突文件时一般怎么解?
来源:Reddit LocalLLaMA|原文:An Open Benchmark for Testing RAG on Realistic Com
夜雨聆风