AI时代的学术搜索:半个世纪前的工具更好用?

这几年，AI 学术工具越来越多。

今天一个 RAG，明天一个知识库，后天一个向量数据库。

各种 embedding、semantic search、graph retrieval、memory routing，一层叠一层。

老实说，我个人不是很喜欢繁琐的东西。

为了做学术，还要先搭环境、切文本、建索引、做向量、配数据库、维护知识库。

折腾到最后，真正花在研究本身上的时间，反而少了。

而且，系统越来越复杂，也未必真的更有效。

一、复杂检索，真的更好吗？

5月14日，Arxiv 上传了一篇很有意思的论文：“Is Grep All You Need?”这个标题显然是在模仿当年的“Attention Is All You Need”。

文章讨论的是，现在的大语言模型 Agent，在进行搜索时，真的主要依赖向量检索吗？

论文作者指出，很多强大的代码 Agent，真正大量使用的，并不是复杂的 RAG，也不是 embedding retrieval，而是一个很传统的工具：grep。

grep 的名字来自 “global regular expression print”，本意是在文本中搜索符合条件的行并输出。

它出现在 1973 年左右，已经有半个世纪的历史了。

你输入一个词，它就在大量文本里寻找包含这个词的位置。听起来很古老，甚至有些低级。

但这篇论文的核心观点却是：在很多真实任务里，简单搜索工具配合良好的 Agent 工作流，效果可能比复杂语义向量更好。

而且，这种趋势已经开始出现在当前主流 AI Agent 中。

论文提到，包括 Claude Code、Gemini CLI、OpenAI Codex CLI 在内的许多代码 Agent，在真实工作过程中，都大量依赖 grep / ripgrep、文件遍历、shell 搜索和多轮关键词检索。

它们并不是单纯依靠 embedding retrieval。

二、学术搜索，很多时候不是语义猜测

这些年大家谈 AI 检索，几乎都会提到向量数据库、embedding、semantic search 和 RAG。

仿佛不用这些东西，就已经落后了。

但真正做研究的人会发现，很多时候，学术搜索并不需要先让系统猜测语义。

举个例子。

我研究佛教文献时，如果想研究“思溪藏”，我不会输入：

宋代南方佛教刻本大藏经

我会直接搜索：

思溪藏思溪

这些关键词本身，已经是高度压缩后的学术索引。

它们的精确度，往往远高于 embedding 所谓的“语义相似”。

因为学术研究中的很多对象，本来就是符号型对象，比如经号、版本名、人名、地名、异体字、CBETA 编号、大正藏编号。

这些内容最重要的不是语义接近，而是精确命中。因此，语义向量反而会带来噪音。

你搜索“思溪藏”，系统却给你召回南宋佛教、江南寺院、雕版印刷、佛教传播。

这些内容当然相关，但未必是你真正需要的。

grep 不会自作聪明，你搜什么，它就找什么。

三、语义检索倒也不是没用

对于外行用户、跨领域问题、模糊概念搜索，embedding 确实能够提供帮助，比如你不知道术语时，它可以帮助你做概念扩展，找到可能相关的表达。

问题在于，真正进入专业研究之后，研究者往往已经知道关键术语是什么。

此时，检索的重点就不再是“猜测用户想表达什么”，而是如何更稳定、更精确地命中文献对象。

这也是我觉得很多 AI 检索方案有点走偏的地方。

学术研究里最朴素的目标，往往只是：

找到材料。

找到原文位置。

能够回到上下文核对。

就这么简单。

最近还有一种很流行的方法，是 Andrej Karpathy 提出的“Wiki 式知识库”思路。简单说，就是给每篇论文生成摘要，再像维基百科一样建立知识页面。

这种方式在小规模语料里确实很好用，因为它相当于提前完成了知识压缩。但问题也很明显。

一旦文献规模巨大，摘要本身就会成为新的负担。

而且，谁来生成摘要？摘要是否可靠？不同模型生成的摘要会不会偏移？数十万篇论文如何持续更新？摘要是否已经丢失细节？

这些也都是问题。

四、Agent 的强项，是反复搜索

最近我让本地的 Codex 直接搜索自己的 Obsidian 笔记库。

它并不是一句话做“语义理解”，然后直接生成答案。

它是在不断迭代搜索。

一开始，它先用“思溪藏”“思溪”做粗搜索。

命中的主要文件包括我本地的《藏经源流研究大纲》《藏经新例子》《译经源流研究大纲》等。

随后，它又自动追加关联词继续检索。比如增上寺、圆觉藏／圓覺藏、如暴／如雹、福州藏、王氏、绍兴二年。

原因很简单：很多材料并不会直接写“思溪藏”。它们可能是通过寺院、异文、人物、目录或刊刻信息间接关联起来的。

接着，它继续通过上下文缩小范围。比如思溪与写本的关联、思溪藏的小字、大般若 220 卷、普宁藏等线索。

最后，再回到原 Markdown 的具体行号进行核对。

所以最终提取出来的，并不是 AI 凭印象生成的总结，而是能够明确对应到原文位置的材料。

例如思溪与写本关系、补版造成的多层文本、增上寺本修补、大正藏／缩刷藏校勘链条、“如暴／如雹”异文案例、圆觉藏／资福藏目录问题、普宁藏题记、大般若版式变化。

我觉得这个例子非常能说明，为什么 Agent 很适合作为学术搜索工具。

它做的事情就是，反复搜索，动态调整关键词，自动扩展关联概念，阅读上下文，再回到原文定位。

这其实已经非常接近传统文献学训练了。

五、未来的知识管理，会更轻量化

未来的知识管理系统，可能得做小而不是做大。

更可能出现的情况是：

用户不需要安装复杂软件，也不需要维护庞大的知识库。

只要把本地文件权限开放给 AI Agent，像 Codex 这样的系统，就可以直接进入 Obsidian、Markdown、PDF、本地文件夹和文献目录。

它可以自动完成搜索、扩展、定位与上下文分析。

当然，从现在的情况看，已经开始不难实现了。

如此一来，AI学术搜索就能让我们更快、更精准地回到原文。

这正是研究需要的地方。