这几年,AI 学术工具越来越多。
今天一个 RAG,明天一个知识库,后天一个向量数据库。
各种 embedding、semantic search、graph retrieval、memory routing,一层叠一层。
老实说,我个人不是很喜欢繁琐的东西。
为了做学术,还要先搭环境、切文本、建索引、做向量、配数据库、维护知识库。
折腾到最后,真正花在研究本身上的时间,反而少了。
而且,系统越来越复杂,也未必真的更有效。
一、复杂检索,真的更好吗?
5月14日,Arxiv 上传了一篇很有意思的论文:“Is Grep All You Need?”这个标题显然是在模仿当年的“Attention Is All You Need”。
文章讨论的是,现在的大语言模型 Agent,在进行搜索时,真的主要依赖向量检索吗?
论文作者指出,很多强大的代码 Agent,真正大量使用的,并不是复杂的 RAG,也不是 embedding retrieval,而是一个很传统的工具:grep。
grep 的名字来自 “global regular expression print”,本意是在文本中搜索符合条件的行并输出。
它出现在 1973 年左右,已经有半个世纪的历史了。
你输入一个词,它就在大量文本里寻找包含这个词的位置。听起来很古老,甚至有些低级。
但这篇论文的核心观点却是:在很多真实任务里,简单搜索工具配合良好的 Agent 工作流,效果可能比复杂语义向量更好。
而且,这种趋势已经开始出现在当前主流 AI Agent 中。
论文提到,包括 Claude Code、Gemini CLI、OpenAI Codex CLI 在内的许多代码 Agent,在真实工作过程中,都大量依赖 grep / ripgrep、文件遍历、shell 搜索和多轮关键词检索。
它们并不是单纯依靠 embedding retrieval。
二、学术搜索,很多时候不是语义猜测
这些年大家谈 AI 检索,几乎都会提到向量数据库、embedding、semantic search 和 RAG。
仿佛不用这些东西,就已经落后了。
但真正做研究的人会发现,很多时候,学术搜索并不需要先让系统猜测语义。
举个例子。
我研究佛教文献时,如果想研究“思溪藏”,我不会输入:
宋代南方佛教刻本大藏经
我会直接搜索:
思溪藏思溪
这些关键词本身,已经是高度压缩后的学术索引。
它们的精确度,往往远高于 embedding 所谓的“语义相似”。
因为学术研究中的很多对象,本来就是符号型对象,比如经号、版本名、人名、地名、异体字、CBETA 编号、大正藏编号。
这些内容最重要的不是语义接近,而是精确命中。因此,语义向量反而会带来噪音。
你搜索“思溪藏”,系统却给你召回南宋佛教、江南寺院、雕版印刷、佛教传播。
这些内容当然相关,但未必是你真正需要的。
grep 不会自作聪明,你搜什么,它就找什么。
三、语义检索倒也不是没用
对于外行用户、跨领域问题、模糊概念搜索,embedding 确实能够提供帮助,比如你不知道术语时,它可以帮助你做概念扩展,找到可能相关的表达。
问题在于,真正进入专业研究之后,研究者往往已经知道关键术语是什么。
此时,检索的重点就不再是“猜测用户想表达什么”,而是如何更稳定、更精确地命中文献对象。
这也是我觉得很多 AI 检索方案有点走偏的地方。
学术研究里最朴素的目标,往往只是:
找到材料。
找到原文位置。
能够回到上下文核对。
就这么简单。
最近还有一种很流行的方法,是 Andrej Karpathy 提出的“Wiki 式知识库”思路。简单说,就是给每篇论文生成摘要,再像维基百科一样建立知识页面。
这种方式在小规模语料里确实很好用,因为它相当于提前完成了知识压缩。但问题也很明显。
一旦文献规模巨大,摘要本身就会成为新的负担。
而且,谁来生成摘要?摘要是否可靠?不同模型生成的摘要会不会偏移?数十万篇论文如何持续更新?摘要是否已经丢失细节?
这些也都是问题。
四、Agent 的强项,是反复搜索
最近我让本地的 Codex 直接搜索自己的 Obsidian 笔记库。
它并不是一句话做“语义理解”,然后直接生成答案。
它是在不断迭代搜索。
一开始,它先用“思溪藏”“思溪”做粗搜索。
命中的主要文件包括我本地的《藏经源流研究大纲》《藏经新例子》《译经源流研究大纲》等。
随后,它又自动追加关联词继续检索。比如增上寺、圆觉藏/圓覺藏、如暴/如雹、福州藏、王氏、绍兴二年。
原因很简单:很多材料并不会直接写“思溪藏”。它们可能是通过寺院、异文、人物、目录或刊刻信息间接关联起来的。
接着,它继续通过上下文缩小范围。比如思溪与写本的关联、思溪藏的小字、大般若 220 卷、普宁藏等线索。
最后,再回到原 Markdown 的具体行号进行核对。
所以最终提取出来的,并不是 AI 凭印象生成的总结,而是能够明确对应到原文位置的材料。
例如思溪与写本关系、补版造成的多层文本、增上寺本修补、大正藏/缩刷藏校勘链条、“如暴/如雹”异文案例、圆觉藏/资福藏目录问题、普宁藏题记、大般若版式变化。
我觉得这个例子非常能说明,为什么 Agent 很适合作为学术搜索工具。
它做的事情就是,反复搜索,动态调整关键词,自动扩展关联概念,阅读上下文,再回到原文定位。
这其实已经非常接近传统文献学训练了。
五、未来的知识管理,会更轻量化
未来的知识管理系统,可能得做小而不是做大。
更可能出现的情况是:
用户不需要安装复杂软件,也不需要维护庞大的知识库。
只要把本地文件权限开放给 AI Agent,像 Codex 这样的系统,就可以直接进入 Obsidian、Markdown、PDF、本地文件夹和文献目录。
它可以自动完成搜索、扩展、定位与上下文分析。
当然,从现在的情况看,已经开始不难实现了。
如此一来,AI学术搜索就能让我们更快、更精准地回到原文。
这正是研究需要的地方。
夜雨聆风