本文最后更新于2026-03-09，某些文章具有时效性，若有错误或已失效，请在下方留言或联系老夜。

装上这个插件,OpenClaw 学会了搜论文

OpenClaw开启了全民“养虾”时代

最近打开任何一个技术群，都在聊 OpenClaw。

甚至还有人推出了安装付费的服务，价格从100到1.6万不等！

如果你还没部署一只自己的龙虾，我个人建议可以试试腾讯云推出的轻量应用服务器海外版（会有惊喜），接入QQ、企业微信、飞书之后就可以使用了。

这是我自己的，还可以画图！

前两天，这只开源龙虾在过去四个月里实现了一个成就：GitHub star 数从 0 飙到 23 万，超过了 React，超过了 Linux。

React 用了 12 年。Linux 用了 14 年。OpenClaw 用了 4 个月。

这条增长曲线本身就是一个信号——不是某个项目火了，而是一个时代的需求被引爆了。人们不只是想要一个更聪明的聊天机器人，他们想要一个能替自己干活的 AI。

有人用它管理日程，有人用它写代码，有人用它炒股，有人用它自动处理邮件和客户消息——什么都能干，什么都敢干。Discord 社区每天几千条消息，你的朋友圈里可能已经有人在晒他们的 OpenClaw 配置了。

但是。

当我第一次尝试用 OpenClaw 做科研的时候，它翻车了。

而且翻得很彻底。

01 一只不会搜论文的龙虾

事情是这样的。

我让它帮我搜一下 “CRISPR 基因编辑在肿瘤免疫治疗中的最新进展”。

它非常自信地给了我一份报告。条理清晰，语言流畅，列了 8 篇论文，每篇都有作者、期刊、年份、DOI。格式完美，看起来比我自己整理的还专业。

心想这玩意儿真行啊。

我点开第一个 DOI。

404。页面不存在。

第二个。404。

第三个。打开了！但那篇论文讲的是农业灌溉。

我开始不对劲了。把 8 个 DOI 全部验证了一遍。

8 篇论文，没有一篇是真的。

一篇都没有。作者是编的。期刊名是编的。DOI 是编的。它用完美的格式，写了一份完美的假报告。

这不是 OpenClaw 的问题。这是所有大语言模型的通病——它们会”编”论文。学术界管这个叫 hallucination（幻觉）。模型在训练数据中见过无数论文的格式，所以它知道一篇论文”长什么样”，但它不知道哪篇论文”真的存在”。

对于写营销文案来说，偶尔编个数据没什么大不了。

但对于科研来说，这是致命的。而且今年基金本子申请，基金委也专门出了提示，避免虚假文献！

所以，你写进论文的每一条引用，都必须是真实的、可溯源的。一条假引用被审稿人发现，整篇论文的可信度归零。你的学术声誉可能因此受损。

我身边就有朋友吃过这个亏——用 ChatGPT 帮忙整理参考文献，投稿之后审稿人发现了两条不存在的引用，直接 desk reject。

那一刻我意识到一件事：

OpenClaw 有大脑，但没有科研的手和眼。

它能思考、能规划、能写作。但它不能去 PubMed 上搜一篇真实的论文，不能去 arXiv 上下载一篇预印本，不能阅读一篇 PDF 的全文，不能判断一篇论文到底是顶会、顶刊，还是几乎没人会认真引用的期刊。

它是一个天才，但是一个没读过书的天才。

一个连图书馆门都进不去的天才。

02 我给龙虾装了一个学术大脑

我做了一件可能有点疯狂的事：我决定教会它。

不是教它”怎么搜论文”——那是 prompt engineering 的活儿，你调一百遍 prompt 也没用，因为模型本身没有访问学术数据库的能力。

我是要给它真正的学术搜索能力。让它能够调用真实的学术 API，拿到真实的数据。

而这件事，正好用到了我构建的文献搜索项目： ai4scholar（ai4scholar.net）。这是一个统一的学术搜索代理。它把 Semantic Scholar、PubMed、Google Scholar、arXiv、bioRxiv、medRxiv 这些学术平台的接口打通了，提供一个统一的 API。

做这个的初衷很简单：我自己做科研的时候，受够了在六七个平台之间来回切换。PubMed 搜一遍，arXiv 搜一遍，Semantic Scholar 再搜一遍，Google Scholar 又搜一遍。同样的关键词输四遍，结果还得手动去重。

现在我要做的是下一步——把 ai4scholar 的能力变成 OpenClaw 能用的”工具”。

用 OpenClaw 的话说，就是做一个插件。

这个过程比我想象的要顺利。OpenClaw 的插件体系设计得很好，本质上就是：你告诉 Agent “你有哪些工具可以用”，以及”每个工具怎么调用”。剩下的，Agent 自己决定什么时候用什么工具。

两周时间，我写了 35 个工具：

搜索类——跨平台论文搜索（一句话搜遍六大数据库）、关键词搜索、语义搜索、标题精确匹配、代码片段搜索

详情类——论文详情获取（标题、摘要、引用量、作者、DOI，全是真的）、引用网络查询（谁引了这篇，这篇引了谁）、作者信息查询（h-index、发表记录、合作者网络）

全文类——PDF 全文下载和阅读（包括通过 DOI 直接下载，支持校园网机构访问）、arXiv 全文获取、bioRxiv/medRxiv 全文获取

分析类——论文质量评估（基于 CCF 分级、引用量、发表年份、作者 h-index 自动打分排序）、论文推荐、批量查询

写作类——自动引用标注（粘贴一段学术文字，自动在需要引用的位置加上真实的参考文献）

35 个工具，覆盖 6 个学术数据库平台。

装上这个插件之后，OpenClaw 变了。

我再让它搜 “CRISPR 基因编辑在肿瘤免疫治疗中的最新进展”。

这一次，它没有”编”。它调用了 PubMed 和 Semantic Scholar 的搜索接口，拿到了真实的论文列表。它读了摘要，按引用量和发表时间排了序，筛掉了不相关的，给我生成了一份报告。

每篇论文的 DOI 都能点开。每个数据都可以验证。它甚至给高引论文做了标注，告诉我哪几篇是领域内被引最多的。具体案例可见我之前写的文章。

科研人开工第一件事：给自己招一个24小时不睡觉的助理吧！

同一只龙虾，装上工具之前和之后，是两个物种。

这个对比让我深刻理解了一件事：Agent 的能力不取决于它的”大脑”有多聪明，而取决于它”手里有多少趁手的工具”。给一个普通人一台显微镜，他能看到细菌。给同一个人一把锤子，他只能砸核桃。

工具定义了能力的边界。

03 凌晨四点半，龙虾自己交了作业

装完插件后的一段时间里，我一直在测试各种用法。搜论文、查引用、找作者——这些都是基本操作，没什么惊喜。

直到有一天，发生了一件让我重新认识 Agent 的事。

凌晨四点半，我失眠刷小红书，看到有人做了一个”自动引用标注”工具——你粘贴一段论文文字，它自动帮你在合适的位置加上引用。

我心想：这不就是 ai4scholar 插件的用武之地吗？我的 Agent 手里有真实的学术搜索工具，完全可以做同样的事，而且引用的论文是从真实数据库搜出来的，不是编的。

于是我给我的 OpenClaw Agent 发了条消息：

“我需要你实现一个功能：用户粘贴一段学术文本，你自动分析哪里需要引用，去数据库搜真实论文，匹配后插入引用标记，在末尾生成参考文献列表。你自己想想怎么实现。我先睡了，早上看结果。”

注意，我没有告诉它具体步骤。没有说”先做 A 再做 B 再做 C”。我只是描述了目标。

然后我去睡了。

早上醒来，它给我交了作业。

它自己拆解了任务，分了五步：

第一步，逐段分析文本语义，识别哪些句子包含需要引用支撑的事实性断言。

第二步，为每个需要引用的断言，从中提取关键概念，构造搜索关键词。

第三步，在 Semantic Scholar 和 PubMed 上搜索候选论文，每个断言搜 5-10 篇候选。

第四步，用质量评估工具（paper_quality_rank）给候选论文打分排序，选择质量最高且语义最匹配的。

第五步，在原文中对应位置插入引用标记 [1]、[2, 3]，最后生成 APA 格式的参考文献列表。

我没有给它写一行代码。我没有画流程图。我没有定义步骤。我只给了它工具和一个目标。它自己想出了怎么做。

这就是 Agent 和传统 AI 的本质区别。

ChatGPT 是一个能说会道的大脑，但它只能回答问题。你问它什么，它回答什么。对话结束，它就停了。

Agent 是一个有手有脚的执行者——给它目标，它自己规划、自己执行、自己检验、自己修正。它可以在你睡觉的时候连续工作几个小时，中间遇到搜不到的论文会换个关键词重新搜，遇到质量太低的候选会自动跳过。

这不是”更聪明的聊天”。这是一种全新的工作方式。

现在这个功能，不仅可以在Openclaw的插件中使用，也可以在ai4scholar.net直接使用。

04 AI for Science 的真正瓶颈，不是模型

这件事让我开始重新审视一个更大的问题。

过去十年，AI for Science 这个领域投了无数钱，出了很多明星项目：

• AlphaFold 预测蛋白质结构（2024 年诺贝尔化学奖）
• GNoME 预测了 220 万种新材料的稳定性
• RFdiffusion 从零设计自然界不存在的蛋白质
• 各种分子生成模型加速药物设计
• 气象大模型把天气预报推到新精度

这些成果确实震撼。每一个都是顶刊论文级别的突破。

但我问你一个问题：你身边有多少科研人员的日常工作因为这些模型而改变了？

大概率答案是：很少。

为什么？

因为这些模型解决的是科研中的一个环节——”计算”。AlphaFold 解决的是”从序列到结构”，GNoME 解决的是”从候选到筛选”。

但一个真实的科研项目长这样：

提出假设 → 搜索文献 → 设计实验 → 编写代码 → 运行计算 → 分析结果 → 修改方案 → 写论文

这八个步骤里，AlphaFold 优化了第五步。其他七步呢？

依然是手动的。依然是人肉的。依然是痛苦的。

一个博士生每天的真实状态是什么样的？

早上到实验室，发现昨晚的计算挂了——参数打错了一个零。改参数，重新提交，排队。

下午查论文。PubMed 搜一遍，arXiv 搜一遍，Semantic Scholar 搜一遍。找到几篇相关的，下载 PDF，翻到第六页 Methods 部分找实验细节。第一篇不是。关掉。下一篇。

晚上处理数据。写了个 Python 脚本，跑出来的图不太对。调坐标轴，换配色，导出 PDF，发给导师。导师说纵轴 label 拼错了。改，重跑。

一天过去了。你做了很多事。但你几乎没有时间思考。

80% 的时间花在执行上，不在思考上。

这才是 AI4S 的真正瓶颈——不是”模型不够好”，而是没有人把整个流程串起来。

你把高速公路上一段 10 公里的路从限速 60 提到了 600，但前后的匝道还是堵着的。整体通行时间没有本质变化。

AI4S 还有一个更隐蔽的瓶颈：它依赖极度稀缺的交叉人才。做 AI4S 的人需要同时精通机器学习和具体科学领域。你得既懂 Transformer，又懂量子化学。这样的人全世界数得过来。

而 OpenClaw + 科研插件提供了一种完全不同的思路：

不要求一个人什么都会，而是让 Agent 把不同的专业能力串联起来。

LLM 负责理解和规划，专业工具负责执行。不是替代某一个环节，而是串联所有环节。让 Agent 成为一个能跑完整个循环的自动化系统。

05 这不是未来，这已经在发生

你可能觉得”AI 自动做科研”听起来还很遥远。

其实它已经在发生了。

2023 年，卡内基梅隆大学的团队发布了 Coscientist——一个能自主规划和执行化学实验的 AI Agent。它可以接收一个合成目标，自己搜文献找合成路线，编写实验方案，然后真的控制实验室里的机器人执行实验。在演示中，它独立完成了阿司匹林的合成，从查文献到出产物，没有人类干预。

2023 年，一个自动化实验室在 17 天内独立完成了一种新型有机半导体材料的发现、合成和优化。17 天。传统流程可能需要一年。

2024 年，David Baker 团队用 RFdiffusion 从零设计了能特异性结合流感病毒的蛋白质药物分子，从设计到实验验证只用了几周。Baker 因此获得了 2024 年诺贝尔化学奖。

2024 年，微软研究院展示了 AI 系统自动阅读数千篇论文、提取关键发现、识别研究空白并生成新研究假设的能力。评估发现，AI 生成的研究创意在新颖性上与人类研究者相当。

MIT、斯坦福等高校已经在运行 “Self-Driving Lab”——自动驾驶实验室。AI 设计实验，机器人执行，传感器采集数据，AI 分析结果，再设计下一轮。24 小时连续运行。一周跑的实验可能超过传统模式一年的量。

这些不是概念验证。这是真实的科学产出。

而这些系统的共同特点是什么？

它们不是”一个更好的模型”。它们是Agent + 工具 + 执行的组合。

06 一个人的实验室

把这些拼在一起，你会看到一个正在成形的图景。

一个研究者，一台电脑，一个装了科研插件的 OpenClaw。

想象一下这样的一天——

早上 9:00。你打开电脑，看到 Agent 昨晚给你发的消息：”关于你提到的催化剂选择性问题，我搜索了 Semantic Scholar 和 arXiv 上的最新文献，发现三个可能的方向。详细报告已整理好。建议优先关注方向 B，因为它与你上周的实验数据趋势一致。”

你花 20 分钟读完报告。确实有道理。回复：”按方向 B 设计三组对照实验的计算方案。”

上午 10:30。Agent 生成了三组计算的输入文件，提交到了实验室的集群。同时发来一条说明，解释了参数选择的依据。你审核了一下，改了一个你觉得更合理的值，让它重新提交。

下午 2:00。第一组计算完成了。Agent 自动分析了结果，画了对比图，标注了异常数据点。”第二组数据中出现了意外的活性峰，可能与表面重构有关。建议追加一组弛豫计算来验证。”

你看了看图，觉得分析有道理。同意追加。

下午 5:00。三组计算全部完成。Agent 整理了完整的分析报告，对比了三组方案的性能差异，给出了推荐方案，还自动检索了三篇相关文献来佐证结论。

你把报告发给导师，说：”方向 B 有戏。”

一天之内，你完成了过去一周的工作量。

这不是科幻。这跟十年前软件行业发生的事情一模一样。

十年前，做一个 App 需要一个团队——前端、后端、DBA、运维、设计。今天，一个人加上 Cursor 或 Copilot，一周就能发布一个完整的产品。”全栈独立开发者”已经是一个成熟的职业。

科研正在进入同样的拐点。

以前，你需要一个 10 人的课题组才能做一个像样的项目。学术界的组织结构跟古代朝廷一样，是一层一层传下去的：

院士 → 杰青 → 优青 → 博士后 → 博士生 → 硕士生

有意思的是，有开发者把 OpenClaw 的架构比作中国古代的三省六部制。

我觉得这个类比放到学术界更绝——

你就是院士（皇上），下旨定课题方向。四青是太子，帮你分拣和建任务。四小青是中书省，接题后规划方案、拆解子课题。博士后和青椒并列，一个审议方案（门下省），一个协调执行（尚书省）。底下的博士生就是六部——博士生 1 搜文献、博士生 2 做数据分析、博士生 3 写代码、博士生 4 跑计算、博士生 5 写论文、博士生 6 做质控。硕士生？在角落打杂。

用 OpenClaw 做科研，你就是”院士”

现在有了 OpenClaw，一个普通研究者也能享受”院士待遇”——你只管提问题、定方向，剩下的整个”朝廷”由 Agent 替你运转。不需要中间层的传达、开会、汇报，你的想法直接变成行动。

现在，一个有好问题的人 + OpenClaw + 合适的工具，可能就够了。

这不是说团队不重要。伟大的科学发现往往诞生于不同思想的碰撞。

但团队的最小单位变了。

过去的最小科研单位是”课题组”。未来的最小科研单位可能是”一个人 + Agent”。

一个提出好问题的独立研究者，配上一个全副武装的 Agent，可能比一个 20 人的课题组更有效率。

07 科学家会变，但不会消失

每一次技术革命都会引发”人会被取代吗”的焦虑。

工业革命时，人们担心机器取代工人。结果：体力劳动被自动化了，但出现了工程师、技师等大量新工种。

计算机出现时，人们担心程序取代会计。结果：手工账本消失了，但数据分析成了一个全新的高薪职业。

AI 时代，人们担心模型取代科学家。

实际上可能发生的是：科学家的角色从”执行者”变成”设计者”。

过去，一个优秀的科学家需要同时具备两种能力：提出好问题，以及亲手执行研究。很多科学家 80% 的精力花在后者上——搜文献、写代码、跑实验、改格式。

未来，执行部分越来越多地交给 Agent。科学家的核心竞争力变成：

提出真正重要的问题。不是”这个模型能不能提升 2 个百分点”，而是”我们对这个现象的理解从根本上对不对”。

设计研究框架。把一个模糊的直觉转化为可执行的研究计划。AI 能执行计划，但设计好的计划仍然需要人类的创造力和审美。

解释和连接。把 AI 产出的大量结果放到更大的知识图景中，找到真正的洞见。数据不等于知识，知识不等于理解。

质量把控。判断 AI 的结果是否可靠，是否有偏差。AI 的幻觉在科研中尤其危险，需要有经验的人把关。

换一种说法：未来的科学家更像导演，而不是演员。

导演不需要亲自演每一场戏。但他决定拍什么故事、怎么讲述、哪个镜头要重拍。

科学家不需要亲自跑每一个实验。但他决定研究什么问题、怎么验证、哪个结果值得深挖。

这其实是一种解放。当你不再被搜论文、改格式、调参数这些事情淹没，你终于可以把时间花在真正需要人类智慧的地方。

08 时代确实变了

回头看，AI for Science 的发展路径走了一条弯路。

十年来，大家一直在追求”更好的模型”——更准确的蛋白质预测、更快的分子生成、更便宜的 DFT 替代。这些当然有价值，但它们只解决了一个点。

真正改变游戏规则的，不是某一个模型变强了，而是一个通用的 Agent 系统获得了科研能力。

这个变化的破坏力在于——它不是从科研内部发生的，而是从外部。

做 AlphaFold 的人是蛋白质结构领域的顶级专家。做 GNoME 的人是材料科学的博士。每一个 AI4S 模型背后，都是一群稀缺的交叉人才。

但给 OpenClaw 写科研插件的人，不需要是任何领域的专家。他只需要知道怎么调用学术 API。

专业壁垒被工具化消解了。

这在历史上有先例。

望远镜不是天文学家发明的，是荷兰的眼镜匠发明的。但伽利略拿到它之后，发现了木星的卫星，颠覆了地心说。

显微镜不是生物学家发明的，也是光学工匠发明的。但列文虎克拿到它之后，在水滴中发现了一整个微观世界。

X 射线晶体学不是生物学家发明的。但沃森和克里克用它”看到”了 DNA 的双螺旋，分子生物学由此诞生。

每一次，改变科学的工具都不是科学家自己造的。

OpenClaw 也不是科学家做的。但装上了科研工具的 OpenClaw，可能会比任何一个 AI4S 专用模型更深刻地改变科研的日常。

因为它改变的不是某一步的效率，而是整个工作方式。

09 但要诚实

写到这里，必须说几句诚实话。不说这些，这篇文章就不完整。

Agent 会犯错。

而且现阶段犯得还不少。它可能搜到不相关的论文、误读数据、得出错误的结论。科研是对准确性要求极高的领域，一个错误的结论如果没被发现，可能误导后续整条研究方向。所以人类的审核和判断，在可见的未来都不可或缺。

垃圾论文可能会泛滥。

如果写论文的门槛大幅降低，学术界可能被低质量的自动生成论文淹没。已经有期刊编辑报告收到越来越多明显由 AI 生成的投稿。学术评价体系和审稿机制需要同步进化。

不是所有科研都能自动化。

计算驱动的领域（材料科学、药物设计、基因组学）更容易受益。但需要实地观察的领域——在热带雨林里追踪蝴蝶迁徙的生态学家，在古墓里小心翼翼刷土的考古学家——AI Agent 暂时帮不了他们太多。

公平性问题。

如果好的 AI 科研系统需要大量算力和付费工具，是否只有富裕机构才用得起？这可能加剧学术界已有的不平等。这也是为什么我坚持把 ai4scholar 做成开源的——让每一个有好问题的人都能用上好工具，这件事值得做。

这些问题不是用来否定 AI 科研的。

而是提醒我们：能做和做得好之间，确实还有距离。但这个距离正在以可见的速度缩短。

尾声

回到开头那只不会搜论文的龙虾。

两个月前，它连一篇真实的论文都找不到。给它一个学术问题，它自信满满地编造 8 篇论文交差。

现在，装上了 ai4scholar 插件之后，它可以同时搜索六个学术数据库，阅读 PDF 全文，评估论文质量，自动标注引用，在你睡觉的时候独立完成一份文献综述。

它没有变聪明。

它只是有了正确的工具。

这可能就是 AI for Science 的真相——改变科研的不会是一个更大的模型，而是一种新的工作方式。一个能规划、能执行、能调用专业工具的 Agent 系统，配上一个知道该问什么问题的人。

以前，做科研需要一支军队。

现在，一个人加一只龙虾，可能就够了。

当然，前提是这只龙虾得先学会搜论文。

OpenClaw 也许还不会做科研。

但一旦它学会了，变的就不只是科研效率。

变的是科研这件事本身。

ai4scholar（ai4scholar.net）—— 让 OpenClaw 学会做科研的插件。

统一搜索 Semantic Scholar、PubMed、arXiv、bioRxiv、Google Scholar，支持论文质量评估和自动引用标注、科研绘图。35 个学术工具，覆盖 6 大数据库。

安装一行命令：openclaw plugins install ai4scholar

往期精选：

Openclaw进化到可以画这种细胞机制图

文献自动标注功能上线Ai4Scholar

Nano Banana 2 上线了，科研人能用它干嘛？

给一段论文内容，自动添加引用文献！

科研人开工第一件事：给自己招一个24小时不睡觉的助理吧！

除了扣子的科研Skills，今天发布一个更通用的工具，让你的 AI 助手秒变学术搜索引擎！

觉得有用？转发给你实验室的同学。让每只龙虾都学会搜论文。

下一篇，我将会手把手从0到1，教会大家如何用腾讯云服务器给自己配置一个高配版多Agent的Openclaw!

敬请期待。

装上这个插件,OpenClaw 学会了搜论文

OpenClaw开启了全民“养虾”时代

01 一只不会搜论文的龙虾

02 我给龙虾装了一个学术大脑

03 凌晨四点半，龙虾自己交了作业

04 AI for Science 的真正瓶颈，不是模型

05 这不是未来，这已经在发生

06 一个人的实验室

07 科学家会变，但不会消失

08 时代确实变了

09 但要诚实

尾声

wang

猜你喜欢

评论抢沙发

OpenClaw开启了全民“养虾”时代

01 一只不会搜论文的龙虾

02 我给龙虾装了一个学术大脑

03 凌晨四点半，龙虾自己交了作业

04 AI for Science 的真正瓶颈，不是模型

05 这不是未来，这已经在发生

06 一个人的实验室

07 科学家会变，但不会消失

08 时代确实变了

09 但要诚实

尾声

wang

猜你喜欢

评论 抢沙发

评论抢沙发