从零搭建一人AI药企!!一台电脑,搞定全流程!!

一台电脑

从零搭建一人AI药企

BioTender | AIDD

一个人坐在咖啡馆里，用一台笔记本，可以完成过去需要一支20人团队、一间湿实验室、数千万资金才能做到的事情。这不是科幻小说，这是现在正在发生的事。

一个不可思议的比喻

2006年，亚马逊推出AWS。在这之前，一家互联网公司要上线，必须先买服务器、租机房、雇运维，光基础设施就能烧掉几百万。AWS出现之后，一个程序员花几十美元就能租到算力，当天部署，隔天上线。互联网的创业门槛，在一夜之间坍塌了。

同样的事情正在生物学领域发生。只不过这一次，"服务器"变成了GPU云，"代码跑通"变成了蛋白质序列设计，"部署上线"变成了向自动化实验室下单做湿实验。整条链路，一个人，一台电脑，就能走完。

这条链路究竟长什么样

传统药物研发的链路，大概是这样的：

靶点确认 → 苗头化合物筛选 → 先导化合物优化 → 临床前研究 → 临床试验 → 上市

每一步都需要大量人力、时间、资金。光是从靶点到一个有苗头的分子，往往就要消耗2-3年、上千万美元。

但如果我们聚焦到其中一个子问题——蛋白质/抗体的从头设计与早期验证——链路可以被压缩成这样：

【靶点结构（PDB文件）】        ↓【AI计算设计层（Modal云GPU）】  de novo结构生成 → 序列优化 → 计算打分筛选        ↓【自动化湿实验层（Adaptyv Bio API）】  蛋白质合成 → 表达检测 → 结合亲和力测定（BLI/SPR）        ↓【结果反馈】  Kd、kon、koff数据 → 指导下一轮设计迭代

每一层都已经有现成的基础设施可以调用。而且，它们之间可以用代码打通。

干端：

Modal + biomodals，

把超算放进终端

Modal是什么

Modal是一个面向AI/ML工作流的云计算平台。它的核心逻辑很简单——你写一个Python函数，加一个装饰器，它帮你在云端的GPU上运行这个函数。不需要管理服务器，不需要配环境，按秒计费。

import modalapp = modal.App()@app.function(gpu="A100", timeout=3600)def run_protein_design(pdb_path: str):    # 这个函数跑在A100 GPU上    ...

免费层每月给$30额度，对个人研究者来说，够跑相当数量的实验。

biomodals：生物计算工具箱——Brian Naughton（Boolean Biotech博主）做了一件极有价值的事：把主流的生物计算工具全部打包成可以一键调用的Modal脚本，放在GitHub仓库 hgbrian/biomodals 里。👇

这个工具箱覆盖了抗体/蛋白质设计的完整流水线：

结构预测层

工具	用途	调用示例
AlphaFold	蛋白质结构预测	`uvx modal run modal_alphafold.py --input-fasta seq.faa`
Boltz-1	AF3级别结构预测（开源）	`uvx modal run modal_boltz.py --input-yaml input.yaml`
Chai-1	多链复合物预测	`uvx modal run modal_chai1.py --input-faa complex.faa`

从头设计层

工具	用途	成本参考
RFdiffusion	骨架扩散生成	~$1/run
BindCraft	端到端binder设计（含ProteinMPNN）	$2-4/3个设计
RFantibody	抗体CDR设计（RFdiffusion微调版）	~$2/run
IgGM	VHH/纳米抗体设计	~$1-2/run

打分评估层

工具	用途
AF2Rank	基于AF2的结合得分（iPAE、ipSAE）
DiffDock	小分子对接
ANARCI	抗体序列编号与CDR注释
ESM-2 masked prediction	序列概率/突变评分

分子动力学

# 对设计好的结构跑50000步MD模拟验证稳定性uvx modal run modal_md_protein_ligand.py \  --pdb-id out/bindcraft/design_001.pdb \  --num-steps 50000

一个完整的设计工作流示例

以设计PD-L1 binder为例：

# 1. 下载靶点结构wget https://files.rcsb.org/download/5JDS.pdb# 2. BindCraft从头设计（在A100上跑约1小时，约$3）GPU=A100 uvx modal run modal_bindcraft.py \  --input-pdb 5JDS.pdb \  --number-of-final-designs 5# 3. 用Chai-1做复合物结构预测打分uvx modal run modal_chai1.py \  --input-faa designs_complex.faa# 4. 用AF2Rank计算ipSAE得分uvx modal run modal_af2rank.py \  --input-pdb out/bindcraft/design_001.pdb# 5. 筛选top候选序列python filter_designs.py \  --min-iptm 0.7 \  --max-ipae 10 \  --output candidates.fasta

openclaw运行实例👆

几个小时，几美元，你手里就有了一批计算上"看起来能结合"的候选序列。

下一步，就是把它们送去真正的实验室验证——而这件事现在也可以用API完成。

湿端：

Adaptyv Bio，

把实验室变成API

Adaptyv是什么——Adaptyv Bio是一家2021年成立的瑞士公司（洛桑），做的事情可以用一句话概括，把蛋白质实验室变成一个可编程的API。

你上传序列，它帮你合成蛋白质、跑实验、返回数据。不需要实验室，不需要招人，不需要买仪器。

2025年，Adaptyv完成了$800万种子轮（Ace Ventures领投），正式向所有蛋白质设计者开放。

Foundry API的能力

五个核心资源组：

Targets    → 浏览可用靶点目录（EGFR、HER2、PD-L1、IL-7Rα等）Sequences  → 提交待测序列Experiments → 创建并管理实验Status     → 追踪实验进度（webhook通知）Results    → 获取实验结果数据

返回的数据格式（以结合assay为例）：

{  "sequence_name": "VHH-01",  "target_name": "HER2 / ERBB2",  "kd": 8.1e-10,  "kd_units": "M",  "kon": 2400000,  "koff": 0.0019,  "binding_strength": "strong",  "r_squared": 0.999}

Kd、kon、koff全部给你，是真实的动力学参数，不是半定量结果。

定价透明（这在传统CRO里是稀缺品）：

Assay费用：$99/条序列材料费：约$17.49/条序列5条序列一批：约$582周转时间：21天。

用Python下单——安装官方SDK：

pip install adaptyv-sdk

提交实验：

from adaptyv_sdk import AdaptyvClientimport osclient = AdaptyvClient(api_key=os.environ["ADAPTYVBIO_API_TOKEN"])# 查看可用靶点targets = client.targets.list(search="EGFR", selfservice_only=True)target_id = targets[0].id# 提交序列做结合assayexperiment = client.experiments.create(    assay_type="binding",    target_id=target_id,    sequences=[        {"name": "design_001", "sequence": "QVQLVESGG..."},        {"name": "design_002", "sequence": "EVQLVESGG..."},        {"name": "design_003", "sequence": "QVTLVESGG..."},    ])print(f"实验编号：{experiment.experiment_code}")print(f"预计费用：${experiment.total_cost_usd:.2f}")print(f"预计完成时间：{experiment.estimated_completion_date}")

21天后，webhook通知你，取回数据：

results = client.results.list(experiment_id=experiment.id)for r in results:    print(f"{r.sequence_name}: Kd = {r.kd:.2e} M ({r.binding_strength})")

干湿闭环：

把两端接起来

这才是真正有意思的地方。

当干端（Modal设计）和湿端（Adaptyv实验）都可以被代码调用，它们之间的"闭环"就不再是隐喻，而是真实可以运行的pipeline。

一个自动化迭代循环的骨架

import modalfrom adaptyv_sdk import AdaptyvClientimport time# ---- 配置 ----TARGET_PDB = "5JDS.pdb"          # PD-L1结构TARGET_ID = "comp-pdl1-human"    # Adaptyv靶点IDDESIGNS_PER_ROUND = 5            # 每轮设计候选数MAX_ROUNDS = 3                   # 最大迭代轮次KD_THRESHOLD = 1e-8              # 目标亲和力（10 nM）client = AdaptyvClient(api_key=os.environ["ADAPTYVBIO_API_TOKEN"])def run_design_round(pdb_path: str, round_num: int) -> list[dict]:    """在Modal上跑BindCraft，返回候选序列列表"""    # 调用biomodals的BindCraft    result = modal.runner.run_sync(        "modal_bindcraft",        input_pdb=pdb_path,        number_of_final_designs=DESIGNS_PER_ROUND,        round_tag=f"round_{round_num}"    )    return result["sequences"]def submit_to_adaptyv(sequences: list[dict]) -> str:    """向Adaptyv提交湿实验"""    experiment = client.experiments.create(        assay_type="binding",        target_id=TARGET_ID,        sequences=sequences    )    print(f"[Round] 实验 {experiment.experiment_code} 已提交，预计费用 ${experiment.total_cost_usd:.0f}")    return experiment.iddef wait_for_results(experiment_id: str, poll_interval: int = 3600) -> list:    """轮询等待结果（每小时检查一次）"""    while True:        status = client.experiments.get(experiment_id).status        if status == "completed":            return client.results.list(experiment_id=experiment_id)        print(f"实验进行中，状态：{status}，1小时后再查...")        time.sleep(poll_interval)# ---- 主循环 ----best_kd = float("inf")best_sequence = Nonefor round_num in range(1, MAX_ROUNDS + 1):    print(f"\n===== 第 {round_num} 轮设计 =====")    # 干端：生成候选序列    candidates = run_design_round(TARGET_PDB, round_num)    # 湿端：提交实验    exp_id = submit_to_adaptyv(candidates)    # 等待21天后取结果（生产环境用webhook替代轮询）    results = wait_for_results(exp_id)    # 分析结果    hits = [r for r in results if r.kd and r.kd < KD_THRESHOLD]    print(f"命中（Kd < {KD_THRESHOLD:.0e} M）：{len(hits)}/{len(results)} 条")    if hits:        best_hit = min(hits, key=lambda r: r.kd)        print(f"最优序列：{best_hit.sequence_name}，Kd = {best_hit.kd:.2e} M")        if best_hit.kd < best_kd:            best_kd = best_hit.kd            best_sequence = best_hit.sequence    if best_kd < KD_THRESHOLD:        print(f"\n目标达成！最优Kd = {best_kd:.2e} M")        breakprint(f"\n最终候选序列：\n{best_sequence}")

这段代码跑起来，就是一个真实运行的、干湿闭环的蛋白质设计迭代系统。

当然，实际使用中你会加上更多的计算筛选步骤（可开发性预测、脱靶风险、免疫原性评估），但骨架就是这样。

现实检验：

这条路的真实成本

干端（计算设计）

步骤	工具	单次成本	时间
骨架生成（5个设计）	BindCraft on A100	~$3	1小时
结构预测验证	Chai-1 on L40S	~$1	20分钟
打分评估	AF2Rank	~$0.5	10分钟
一轮完整流程	—	约$5	约2小时

Modal免费层$30/月，大约可以支撑6轮完整设计迭代。

湿端（实验验证）

参数	数值
每条序列assay费	$99
每条序列材料费	~$17
每条序列合计	~$116
典型批量（5条）	~$582
周转时间	21天

三轮迭代的总预算估算

干端（3轮 × $5） ≈ $15`湿端（3轮 × 5条） ≈ $1,746——————————————————————————合计 ≈ $1,761`

不到两千美元，三轮计算-实验迭代，找到一个纳摩尔级别结合的候选序列。相比之下，传统CRO做同样的工作，光报价就不一定报出来，周期往往是6-12个月。

商业视角：

这开启了什么

一人公司的可能性——这套基础设施最直接的含义是：创业门槛被大幅压低了。

过去，做蛋白质/抗体治疗领域的公司，A轮之前必须有一个实验室（租金+装修+仪器，≥500万）、一支湿实验团队（至少3-5人，含仪器操作员）、一套数据管理系统。现在，一个有AI背景的生物学家，可以用Modal跑计算，$30/月起、用Adaptyv做实验验证，按需付费、用Python脚本管理整个pipeline。

这不是说一个人能做完所有事，而是说验证早期假设的成本，已经降低到个人可以承受的程度。这对CRO行业意味着什么。传统CRO的核心壁垒是我有设备，你没有。但当实验室变成API，这个壁垒开始松动。Adaptyv自己也清醒地意识到这一点。他们在博客里写道：Adaptyv存在的意义，是让蛋白质设计师专注于设计，而不是流水线。这和AWS出现之前开发者要自己管服务器一模一样。

未来可能出现的商业形态：

计算驱动的"虚拟CRO"——没有自己的实验室，但能承接客户的从头设计任务，外包给Adaptyv做验证。

AI蛋白质设计工作室——专注特定靶点类型（如PD-1/PD-L1通路），积累设计know-how，卖序列或数据。

闭环模型训练服务——帮客户跑干湿闭环、产生高质量结构-活性数据，喂给客户的内部模型。

当前的局限性

需要如实说明，这套基础设施目前还有明显的天花板：

Adaptyv靶点目录有限。 自助服务（selfservice）的靶点目前集中在EGFR、HER2、PD-L1、IL-7Rα等热门靶点。偏门或全新靶点需要联系他们定制，失去了自动化优势。

湿实验周期仍然是21天。 干端几小时出结果，湿端3周等数据，限制了真正高频的迭代。Adaptyv明确表示在努力压缩这个数字，但目前还没有更快的方案。

assay类型有限。 目前主要是结合assay（BLI/SPR）和表达检测，热稳定性等更多表征维度仍在扩展中。对于需要细胞功能实验的项目，这一层覆盖不到。

地理摩擦。 Adaptyv在瑞士，国内支付、数据传输、合同合规需要额外处理。

这条路适合早期筛选，不适合替代全部研发。 它能帮你快速找到"计算上合理、实验上有结合"的候选，但后续的选择性、PK/PD、安全性等，还是需要传统的研发路径。

动手：

五分钟开始你的第一个实验

如果你想真实体验这套流程，最快的入门路径：

第一步：环境准备（10分钟）

# 安装uv（Python包管理器）curl -LsSf https://astral.sh/uv/install.sh | sh# 注册Modal账号，获得$30免费额度# https://modal.com → 注册 → 获取tokenpython -m modal setup# 安装Adaptyv SDKpip install adaptyv-sdk

第二步：克隆biomodals（1分钟）

git clone https://github.com/hgbrian/biomodalscd biomodals

第三步：跑你的第一个蛋白质折叠（5分钟，免费）

# 下载一个经典抗原wget https://files.rcsb.org/download/1YWI.pdb# 用AF2Rank打分uvx modal run modal_af2rank.py --input-pdb 1YWI.pdb --run-name test

第四步：尝试设计一个binder（1小时，约$3）

# 下载PD-L1结构（只保留A链）wget https://files.rcsb.org/download/5JDS.pdbgrep "^ATOM.*\ A\ " 5JDS.pdb > 5JDS_chainA.pdb# 跑BindCraftGPU=A100 uvx modal run modal_bindcraft.py \  --input-pdb 5JDS_chainA.pdb \  --number-of-final-designs 3

第五步：申请Adaptyv API token

访问 foundry.adaptyvbio.com，注册账号，在侧边栏获取API token。在下单前，可以先用免费的竞赛（如Nipah binder competition）练手。

这是一个什么样的时刻

2024年，Adaptyv举办了一场EGFR binder设计竞赛，150多个参赛者提交了超过1800个设计，Adaptyv在实验室测了其中601个。第一轮命中率2.5%，两个月后第二轮提升到13%。

在这场竞赛里，排名最靠前的参赛者，用的就是这套工具——Modal跑计算，Adaptyv做验证，一个人在电脑前。

这不是说个人研究者要去跟大药企竞争。药物研发的后半段，临床、法规、商业化，不是工具能解决的。但这意味着在药物研发最昂贵、最慢的早期探索阶段，个体的力量第一次变得可以和机构抗衡。就像GitHub让一个人可以维护一个被全球数百万开发者使用的开源项目，这套基础设施让一个人可以真正意义上地"研发"一个蛋白质候选分子。一台电脑，一张信用卡，一人药企，不再是隐喻。

参考资源

biomodals仓库：github.com/hgbrian/biomodals

Boolean Biotech博客：blog.booleanbiotech.com

Adaptyv Foundry API文档：docs.adaptyvbio.com

Adaptyv AI Agents页面：agents.adaptyvbio.com

Adaptyv EGFR竞赛总结预印本：biorxiv.org/content/10.1101/2025.04.17.648362

如果你想跟进这类“AI × 生物资讯”的最新进展，欢迎关注