你的AI助手真的懂“头脑风暴”吗?Nature子刊新探:高智商大模型,未必能想出好Idea-夜雨聆风

你的AI助手真的懂“头脑风暴”吗?Nature子刊新探:高智商大模型,未必能想出好Idea

“

面对AI for Science的科研浪潮，学术论文、前沿成果是启发思考、开拓视野的有效途径。为帮助科研人员快速理解复杂公式、突破学科壁垒、节约科研时间，星使智算推出「科研聚焦」系列栏目！我们将依托北大科研团队+ADAM智能体的双重优势，筛选Nature、Chem. Sci.、J. Chem. Theory Comput.等顶刊中的标杆论文，用“技术拆解+应用落地”的双视角，为你提炼核心创新点、梳理技术逻辑链、解读科研价值与产业转化潜力。无需逐字啃读长篇原文，10分钟get一篇顶刊的核心精华，让前沿科研成果真正赋能你的实验设计与技术研发，少走弯路、高效突破！

”

作为科研工作者，“新颖性”三个字，或许是所有人一听到都会头痛的“紧箍咒”。

最怕的瞬间，莫过于面对一个空空如也的新建文件夹，背后是浩如烟海的同行文献。你盯着天花板苦思冥想，试图在旧地图里找一条从未有人走过的新路，去抓那个既能惊艳Reviewer #2、又能扎实落地的Idea。这种感觉像是在深海里徒手捞一只外星人——既要在黑暗中碰运气，还得指望它真实存在。

这几年，AI的进化速度几乎惊掉了所有人的下巴。大模型、Agent、Skills等新鲜事物持续涌现，AI变得越来越聪明，越来越全能。在面对论文调研，可行性分析等工作时，我们第一时间想到的工具从SciFinder和Google Scholar，变成了ChatGPT或者Gemini。作为碳基科研工作者，我们难免会对身边的硅基伙伴们生出憧憬：既然列位诸公这么靠谱能干，那灵感的火花是不是也能靠你们点燃？我的Paper创新点，是不是终于有救了？

但现实可能要先给你泼一盆冷水。

近期，一篇由中国人民大学、浙江大学、中国科学院等机构联合发表在《Nature Communications》上的研究精准地拆解了这个幻想。研究发现：大模型的做题能力和它的科学创意生成能力，在很大程度上是两条并不重合的平行线。

今天，我们就来聊聊这篇充满洞见的文章。带你认清AI在科研中的真实定位，看看在这个 AI浓度爆表的时代，如何才能挑选出真正靠谱的“学术合伙人”。

一、为什么以前的测试，测不出AI的“科研脑”？

在此之前，人们评估大模型通常看重它们在逻辑推理、数学计算或代码生成上的表现。这些任务有一个共同点：它们考察的主要是收敛性思维，也就是根据已知条件，推导出一个预定的“正确”答案。

但科研创新的破局点，往往在于发散性思维的运用。许多突破性的科学发现，源于对极少线索的意外关联和概念跳跃。换句话说，真正的“头脑风暴”，是给你一个非常宽泛的概念，你能发散出多个充满想象力且合理的新方向。

现有的评估基准大多需要输入长篇大论的文献摘要或完整文章，让AI去总结或顺着往下写。这种方式能很好地测试模型吸收现有知识的能力，但很难系统地评估它们“凭空想点子”的能力。

二、LiveIdeaBench：给大模型的“创意摸底考”

为了更客观地评估模型在限制条件下的发散思维，研究团队基于经典的吉尔福特创造力理论，开发了一个名为LiveIdeaBench的动态评估基准。

他们的做法非常贴近我们真实的科研痛点：

🔺极简提示词：不给长篇文献，每次只给模型抛出一个科学关键词（比如“bacteriology”、“surface chemistry”等），促使模型依靠自身内部的知识网络进行发散性思考。

🔺海量动态考题：词库包含横跨22个科学领域的1,180个前沿科学关键词，并且每月动态更新以紧跟科研前沿，防止模型“背题”。

🔺五维雷达图：从五个维度给生成的Idea打分：原创性、可行性、流畅度、灵活性和清晰度。

🔺AI评委团：引入了由10个当前最顶尖模型组成的多模型评委团进行盲审和交叉打分。

在这个考场上，团队对超过40款当前主流的大模型进行了全面摸底。

三、揭榜时刻：谁才是实验室里的“点子王”？

研究结果揭示了几个颇具启发性的结论，对我们日常使用AI工具有着直接的指导意义：

1. 高智商≠高创意

这是整篇文章非常核心的发现：模型在通用智力基准上的得分，不能很好地预测它生成科学想法的能力。

🔺“偏科天才” QwQ-32B-preview：这个模型在通用智力测试中表现平平，但它的科学创意生成能力却出奇地高，甚至能和智力顶尖的模型表现相当。

🔺“做题家” o3-mini-high：这类模型以极强的逻辑和数学推理能力著称，但在被要求发散思维构思科学Idea时，表现却相对中庸。

2. 各有所长的“学术偏好”

大模型的创意能力存在一定的领域特异性，不同模型在不同学科中各有所长。例如，测试指出：claude-3.7-sonnet:thinking在化学、医学和数据科学领域的表现拔得头筹。如果你正在构思一个分子层面的新机制或是探索新的合成途径，找它探讨是个不错的选择。相对而言，deepseek-r1在物理学领域展现出了更强的相对实力。

3. “天马行空”与“脚踏实地”的权衡

在科研中，一个Idea光新颖不够，还得能在现有的实验条件下跑得通。测试发现，模型在这两点上往往存在取舍：

🔺天马行空型：claude-3.7-sonnet:thinking拿下了极高的原创性得分，但可行性相对中等。

🔺脚踏实地型：nova-pro-v1则是相反的画风，给出的点子落地性强，但原创性稍显不足。

🔺六边形战士：值得关注的是，deepseek-r1在原创性和可行性之间展现出了极佳的平衡，是一个综合实力非常全面的多面手。

4. 别被长篇大论忽悠了：字数不等于质量

有时候我们会觉得，AI给出的答案越长、推演过程看起来越复杂，这个点子就越有深度。但数据表明，想法的长度与想法的质量之间只有非常微弱的正相关。哪怕是专门为推理设计的模型，它们长篇大论的“思考过程”也未必能推导出一个高质量的科学创见。

四、总结：AI是助攻，C位还得是你

LiveIdeaBench的出现为评估大模型的创新潜能提供了一个极具启发性的“新坐标”。它清醒地提醒我们，大模型的通用智力和科学创意不是一回事儿，做题厉害不代表点子就新，想靠大模型一键产生创新点，可能还要有一段路要走。

不过作为一个固定的评测基准，LiveIdeaBench也具有其局限性。首先，我们必须承认，诞生在实验室中的真实的创新，往往比“看词说话”的定式要复杂得多，它涉及复杂的逻辑分析与大胆的判断，而这些深层特质与目前的基准测试模式之间，依然存在着微妙的“次元壁”。

此外，AI领域的发展瞬息万变。截至这篇推送的发稿日，GPT-5.4、Claude Opus 4.6等模型已经刷屏，这些新模型能否在LiveIdeaBench的考验下展现出更接近人类的创造力，确实令人期待。

最后，让我们关注一个终极设想：如果在未来的某一天，AI真的可以包办科研工作的创新点，由机器人主导的自动化实验室接管了实验的执行流程，那么在这个由硅基生命主导的科研闭环中，我们的位置又在哪里？

参考资料：

https://www.nature.com/articles/s41467-026-70245-1

Sidereus

星使智算

星使智算是一家专注于科研智能体与垂类科学计算解决方案的创新型科技公司，致力于以人工智能赋能科研，重构科学研究范式。公司核心产品 GaliLeo 平台通过自然语言交互驱动科学计算，集成任务解析、工具调用与科研报告自动生成，显著提升科研效率与算力使用效能。

星使智算面向量子化学、生物信息、材料建模等多个高性能计算领域，提供智能体定制与计算平台服务。公司自研 AI Agent “ADAM” 已在多个场景中落地应用，具备高度可扩展性与专业化能力。与此同时，星使智算还提供对 SPONGE 分子动力学引擎的深度适配与计算支持，帮助科研用户高效开展分子模拟、自由能计算等关键任务，推动前沿科研成果的加速落地。

目前，星使智算已与多家一流科研机构与科研服务公司建立战略合作，持续拓展在新药研发、分子设计与基础科学研究中的智能化应用边界。

你的AI助手真的懂“头脑风暴”吗?Nature子刊新探:高智商大模型,未必能想出好Idea

wang

猜你喜欢