乐于分享
好东西不私藏

哈佛开源AI科学家:1000+工具武装大模型,生命科学能否迎来第二次飞跃?

哈佛开源AI科学家:1000+工具武装大模型,生命科学能否迎来第二次飞跃?

2023年,AI 预测了蛋白质结构。2025年,AI 开始自主设计药物分子。如果这条曲线继续,2030年的 AI 会不会直接告诉我们:衰老,是可以被治疗的?

哈佛团队开源 ToolUniverse:

1000+ 科学工具,让 AI 成为你的「研究搭档」

当 AI Agent 遇上药物发现、基因组学和临床试验

想象一下这样的场景:

你在终端里敲下一行自然语言——“帮我找到一种比现有降脂药更好的化合物,要求毒性更低、口服生物利用度更高”——几分钟后,一个 AI 科学家自主调用了蛋白质对接模型、ADMET 毒性预测器、PubChem 化合物数据库和 FDA 药物标签检索,返回了一份完整的候选分子报告,附带合成路线建议。

这不是科幻电影的桥段。这是哈佛医学院 Zitnik 实验室刚刚开源的 ToolUniverse 正在做的事。

一、ToolUniverse 到底是什么?

一句话概括:ToolUniverse 是一个让任意大语言模型(LLM)变成「AI 科学家」的开源工具生态系统。

它不是一个模型,也不是一个聊天机器人。它是一套标准化的「工具箱 + 协议 + 技能包」——

·1000+ 工具:涵盖机器学习模型、科学数据库 API、数据分析包、文献检索引擎

·AI-Tool Interaction Protocol:标准化 LLM 如何「发现工具 → 调用工具 → 接收结果」的全流程

·66 个预置 Agent Skills:开箱即用的研究工作流,覆盖药物发现到基因组学

·MCP 原生支持:直接接入 Claude Desktop、Cursor、VS Code 等主流 AI 客户端

·支持所有主流 LLM:Claude、GPT、Gemini、Qwen、DeepSeek,以及开源模型

项目地址:https://github.com/mims-harvard/ToolUniverse

论文:arXiv:2509.23426

团队:哈佛医学院 Marinka Zitnik 实验室(HMS / MIMS)

二、它是专门做医药研究的吗?

这是最常被问到的问题。答案是:

底层架构是通用的,但当前的工具库和技能包 90% 以上聚焦在生物医药领域。

我们可以把 ToolUniverse 拆成两层来理解:

层级

内容

通用性

基础设施层

MCP 协议、Tool Composition 引擎、Async 任务调度、CLI/SDK、缓存系统

✅ 完全通用,可接入任何领域工具

工具+技能层

1000+ 科学工具、66 个 Agent Skills(药物发现、基因组学、临床试验……)

[lab] 高度聚焦生物医药

所以如果你是做软件开发、金融分析或通用 AI 应用的,ToolUniverse 的架构思想值得学习,但你不会直接用到它预置的 1000 个工具——那些工具全都是 PubChem、DrugBank、ClinicalTrials.gov、GWAS Catalog 这类生物医药专用接口。

但如果你在做:

·药物研发(新药发现、药物重定位、ADMET 预测)

·精准医疗(癌症变异解读、临床试验匹配)

·基因组学(GWAS 分析、CRISPR 筛选、单细胞分析)

·生物信息学(蛋白质结构预测、分子对接、表观遗传学)

·药物安全(不良反应检测、药物相互作用预测、药物警戒)

——那这就是目前全球最完整的 AI 科研工具平台,没有之一。

三、核心能力拆解

3.1Compact Mode — 1000 个工具只占 5 个 token 位

大模型的上下文窗口是有限的。1000 个工具的描述文档加起来可能占掉整个 context。ToolUniverse 的 Compact Mode 把 1000+ 工具压缩成 4-5 个「发现型工具」(类似搜索引擎),按需加载真正需要的工具描述,节省 ~99% 的 context 空间。

3.2Tool Composition — 工具自动编排

一次完整的药物研究可能需要:

基因查询 → 蛋白质结构预测 → 分子对接 → ADMET 毒性评估 → 文献验证 → 临床试验检索

ToolUniverse 支持 Sequential 和 Parallel 两种编排模式,让 Agent 自主决定调用链。

3.366 个预置研究技能

这是 ToolUniverse 对一线研究者最直接的价值。部分技能列表:

技能名称

功能描述

Drug Research

全维度药物研究报告:药理、毒性、临床证据

Disease Research

疾病综合报告:10 个维度、100+ 工具协同

Target Research

靶点可成药性评估:EGFR、BRAF 等

Drug Repurposing

老药新用:基于靶点/化合物/疾病三策略

Clinical Trial Matching

患者-临床试验智能匹配

Antibody Engineering

抗体人源化、亲和力成熟、免疫原性预测

CRISPR Screen Analysis

CRISPR 功能基因组筛选分析

GWAS Drug Discovery

GWAS → 靶点 → 药物的完整链路

Adverse Event Detection

基于 FDA FAERS 的不良反应信号检测

Cancer Variant Interpretation

癌症体细胞突变的临床解读

Literature Deep Research

跨 PubMed/ArXiv/BioRxiv 深度文献综述

安装方式极其简单,一行命令全部装好:

npx skills add mims-harvard/ToolUniverse

四、实战案例:高胆固醇血症药物发现

论文中给出了一个完整案例:

研究问题:能否找到一种高胆固醇血症(Hypercholesterolemia)药物的更优类似物?

AI 科学家的自主执行链:

·Step 1:查询疾病关联靶点和现有药物

·Step 2:对候选化合物进行分子对接和 ADMET 预测

·Step 3:筛选出毒性更低、生物利用度更高的类似物

·Step 4:交叉验证文献证据和临床试验数据

最终成功识别出一个具有更优预测属性的药物类似物——整个过程由 AI 自主完成,无需人工干预。

五、技术架构:为什么值得关注

即使你不做生物医药,ToolUniverse 的架构设计也有三个点值得所有 AI 从业者学习:

5.1AI-Tool Interaction Protocol (ATIP)

这是一套标准化的 LLM ↔ 工具交互协议。它定义了:

·工具如何被发现(Discovery)

·参数如何被校验(Validation)

·结果如何被格式化返回(Response Schema)

·异步任务如何被追踪(Progress Tracking)

这套思路可以直接迁移到任何领域的 Agent 工具生态建设中。

5.2MCP 原生支持

ToolUniverse 是 MCP(Model Context Protocol)官方注册的服务。这意味着它可以直接被 Claude Desktop、Cursor、VS Code Copilot 等支持 MCP 的客户端调用。不需要写胶水代码,配置一个 JSON 就能用。

5.3两级缓存系统

内存 LRU + SQLite 持久化,每个工具有独立的指纹校验。好处:

·10x 加速:重复调用直接命中缓存

·离线支持:断网也能用已缓存的结果

·可复现性:缓存带时间戳和参数指纹,确保实验可复现

六、怎么用?三种姿势

姿势 1:AI Agent 一键安装(推荐)

在你的 AI Agent(Claude Desktop、Cursor 等)里直接说:

“Read https://aiscientist.tools/setup.md and set up ToolUniverse for me.”

Agent 会自动完成 MCP 配置、API Key 设置和技能安装。

姿势 2:命令行 CLI

uv pip install tooluniverse

然后用 tu 命令:

·tu search “protein docking”— 搜索工具

·tu inspect tool_name— 查看工具详情

·tu run tool_name ‘{“param”: “value”}’— 运行工具

姿势 3:Python SDK

适合在 Jupyter Notebook 或自动化脚本中使用。完整 API 文档在项目官网。

七、生态项目

基于 ToolUniverse 已经衍生出两个重量级项目:

TxAgent — 治疗推理 AI Agent

面向临床治疗决策的 AI 系统。给定患者信息和疾病诊断,TxAgent 能自主检索药物数据、评估治疗方案、预测副作用并推荐最优治疗路径。论文已发表在 arXiv,模型权重在 HuggingFace 上开源。

Medea — 多组学 AI 科学家

整合基因组学、转录组学、蛋白质组学数据,用于发现治疗靶点和预测药物反应。覆盖癌症、自身免疫等疾病领域。

八、写在最后

ToolUniverse 代表了 AI 科研的一个重要趋势:

从「AI 回答问题」到「AI 做实验」。

过去的 AI 科研工具是「你问它答」——ChatGPT 能帮你解释一篇论文,但它不能帮你跑一个分子对接。ToolUniverse 的意义在于,它给了 LLM 一双「手」——1000 多个可以实际执行科学计算的工具,让 AI 从「顾问」变成了「研究助手」。

对于生物医药领域的研究者来说,这可能是 2025 年最值得关注的开源项目之一。

对于 AI 工程师来说,ATIP 协议 + MCP 集成 + Compact Mode 的设计范式,值得在任何垂直领域的 Agent 工具生态中借鉴。

—— 相关链接 ——

[link] GitHub: github.com/mims-harvard/ToolUniverse

[link] 官网: aiscientist.tools

[link] 论文: arxiv.org/abs/2509.23426

[link] 文档: zitniklab.hms.harvard.edu/ToolUniverse

[link] B站演示: bilibili.com/video/BV1GynhzjEos

[link] TxAgent: github.com/mims-harvard/TxAgent

[link] Medea: github.com/mims-harvard/Medea

作者原创 · 欢迎转发 · 转载请联系授权