
《Nature》发布的How AI agents will change research: a scientist’s guide,系统阐述了 AI 代理的核心定义、科研能力、应用场景、技术门槛、性能现状及潜在风险,为生命科学领域研究者科学、理性地运用该技术提供了权威参考。
一、研究背景
生命科学研究已进入数据密集型时代,文献检索、数据整理、代码编写、多源数据整合等基础工作,占据了研究者大量时间与精力。AI Agents以大语言模型为核心,可自主规划并执行复杂任务,甚至支持多代理协同作业,被认为或将深刻改变科研范式。

二、AI Agents的核心定义:区别于传统自动化工具
要科学运用 AI Agents,首先需明确其核心定义,厘清与传统科研自动化工具的本质差异,这是理解其科研价值的基础。
(一)传统科研自动化工具的局限
在生命科学研究中,研究者早已依赖各类自动化工具提升效率,但传统工具存在根本性短板:完全依赖研究者预设的固定指令,仅能完成单一、标准化的任务,无法根据科研目标动态调整执行计划,也难以自主联动多个不同功能的工具,难以应对生命科学研究中复杂、多变、跨环节的科研流程。
(二)AI Agents的核心特性
AI Agents是以大语言模型为核心,联动浏览器、数据库、代码套件、科研软件等外部工具的智能系统,具备三大核心特性,这也是其区别于传统工具的关键:
动态自主规划能力:无需研究者预设每一步操作指令,可基于给定的科研目标,实时制定、调整并优化多步骤执行计划,适配科研过程中灵活多变的需求; 跨工具联动执行能力:可自主调用各类外部工具完成实际操作,如检索学术文献、清洗与分析数据集、编写并运行代码、提取数据库关键信息,打通科研全流程的多个环节; 记忆与协同交互能力:具备工作记忆,可记录用户偏好、历史操作与科研进展,同时支持多个 AI 代理之间协同交互、信息共享、相互论证,模拟多名研究者分工协作的科研模式。
三、AI Agents的核心能力:赋能科研日常与跨学科协作
(一)简化日常科研任务,释放科研创造力
AI Agents最直接的应用价值,是高效处理低风险、高重复性的日常科研工作,大幅提升科研效率,让研究者聚焦高价值的创造性工作。
AI Agents可高效完成三类核心任务:一是数据集整理,快速完成数据筛选、异常值剔除、缺失值处理与格式标准化;二是文本数据结构化,将文献、报告中的非结构化文本转化为规范表格;三是基础代码编写,生成数据处理、统计分析所需的基础代码脚本。AI Agents能让研究者从繁琐劳动中解放,专注科研设计、结果解读与科学假设提出。
(二)模拟多专家协同,破解跨学科研究壁垒
生命科学尤其是临床医学研究,高度依赖跨学科协作,复杂疾病研究往往需要基础医学、临床医学、统计学、药理学等多领域专家协同参与,但现实中面临沟通成本高、专家资源有限、协作效率低等难题。AI Agents的多代理协同能力,为破解这一壁垒提供了全新路径。
四、助力科研发现:挖掘数据隐藏价值,催生科研突破
(一)数据驱动生成科学假设,挖掘隐藏关联
生命科学领域的重大科研突破,往往源于对数据中隐藏关联的发现,AI Agents依托大语言模型的推理能力,可多维度挖掘海量数据中的潜在关联,自主生成具备研究价值的创新性科学假设。
(二)加速药物发现与验证,推动老药新用
药物研发是生命科学领域投入大、周期长、风险高的核心领域,AI Agents的应用,正推动药物研发从 “实验驱动” 向 “数据驱动” 转型,跨适应症药物发现(老药新用)是最具代表性的成果。
五、使用所需技能:普惠化与专业化并存,降低科研应用门槛
(一)简单场景:零门槛操作,人人可用
对于生命科学研究中的基础场景,如文献综述、简单数据整理、文献关键信息提取、基础研究进展梳理等,当前 AI Agents已封装为成熟工具,无需任何专业技能,无代码基础的研究者即可直接使用。
(二)高级场景:需跨学科专业能力支撑
在复杂科研场景中,如定制化 AI Agemts开发、复杂多组学数据分析、复杂临床统计建模、多代理协同系统搭建、科研全流程自动化设计等,仅靠自然语言指令无法满足个性化需求,此时研究者需具备机器学习、编程、生命科学专业知识、数据分析能力等跨学科专业能力。
(三)普惠工具:打破代码壁垒,推动跨领域应用
为解决高级场景下 “代码门槛高、跨领域应用难” 的问题,科研团队正积极开发开源普惠工具,其中 Marinka Zitnik 团队研发的ToolUniverse是代表性成果。
ToolUniverse 是一个开源在线环境,核心功能是让研究者通过纯自然语言指令,将大语言模型与生命科学、临床医学领域的常用工具(如统计软件、数据库、文献工具、可视化工具)快速对接,无需编写任何代码。
六、AI Agents的实际性能现状:潜力巨大但尚未成熟
(一)整体水平:高度依赖人工监督,远非通用人工智能
微软研究院 AI 前沿实验室负责人 Ece Kamar 直言,能自主、可靠完成所有科研任务的终极 AI 代理,本质上属于通用人工智能(AGI)范畴,而我们距离实现这一目标还非常遥远。当前所有 AI Agents,均高度依赖人工监督,仅能作为科研助手辅助工作,无法独立主导科研全流程,所有关键决策与结果均需研究者把关。
(二)基准测试结果:擅长基础任务,薄弱于复杂场景
为精准评估 AI 代理的实际性能,艾伦人工智能研究所(Ai2)开发了基准测试工具AstaBench,该工具包含 2400 项生命科学领域的科研任务,覆盖文献综述、数据处理、统计分析、实验设计、报告撰写等科研全流程,测试结果清晰揭示了 AI 代理的能力短板。
(三)评估难点:结果主观性强,最终需实验验证
与传统工具的性能可通过客观指标量化不同,AI Agents在科研发现领域的性能难以精准评估,核心难点在于两点:一是 AI 生成的科学假设质量具有主观性,不同研究者对同一假设的价值判断差异较大,无统一量化标准;二是科学假设的真伪无法仅靠 AI 验证,无论 AI 的推理过程多么严谨,最终都必须通过实体实验、真实世界临床数据验证才能确认其科学性。Marinka Zitnik 强调,评估 AI 生成的科学假设,唯一权威的方式是实验验证,科研层面的关联分析仅能提供线索,不能作为结论。
七、AI 代理的使用风险:警惕固有缺陷,规避科研隐患
主要风险包括三类:一是LLM 幻觉,易生成看似合理但实际错误的信息,歪曲文献结论、编造虚假数据,误导研究方向;二是行为失控,已有企业案例显示,AI 代理曾违背指令擅自删除数据库,造成重大损失;三是逻辑缺陷,难以真正理解科研逻辑与专业场景,易做出不合理判断,影响科研结果可靠性。
八、风险防范措施:筑牢安全防线,实现人机协同科研
面对 AI 代理的潜在风险,无需因噎废食,通过科学规范的防范措施,可有效规避风险,实现 AI 代理与人类研究者的安全协同。核心措施包括:要求 AI 代理标注信息来源、解释操作逻辑,逐步骤核验结果;将 AI 代理置于 “容器化” 环境,严格限制操作权限与数据访问范围;建立人工主审与 AI 交叉核验的双重监督机制;坚持人机闭环,低风险任务适度放权,高风险任务全程人工主导。
九、总结
AI 代理作为生命科学研究领域的新兴智能工具,正以高效、灵活、多能的特性,重塑科研工作模式。它既能简化日常科研任务、释放研究者创造力,也能模拟跨学科专家协作、破解科研协作壁垒,还能挖掘数据隐藏规律、助力科研发现与药物研发,同时普惠工具的出现持续降低应用门槛,推动技术普及。
文献信息文献题目:How AI agents will change research: a scientist’s guide DOI:10.1038/d41586-025-03246-7
夜雨聆风