最近读了一篇很有意思文章,摘选并注解如下,原文请参考:https://liangchang.substack.com/p/i-asked-2-ai-agent-teams-to-run-20
导语
在生物医药这个动辄“百亿美金砸不出一个响动”的终极高风险行业,一个决策的失误就能让巨头瞬间跌落神坛。如果把今天最顶尖的 AI 智能体(Agents)组装成“虚拟高管团队”,送回那些决定巨头命运的董事会时刻,它们能比人类做得更好吗?
最近,Liang's AIxBIO foundry开展了一项跨越时空的“盲测”实验:让 Anthropic 的 Claude 和 OpenAI 的 GPT/Codex 团队独立推演 20 个制药巨头的重大战略决策。
实验的结果如下:在 90% 的案例中,两个相互独立的 AI 团队做出了完全相同的战略选择。它们彼此之间高度共识,却在面对复杂的现实时暴露了致命的短板。

01. 终极盲测:给 AI 戴上“时间锁”
为了保证绝对公平,作者对 AI 团队施加了严格的“时间锁”:只能调用决策发生前的公开数据(如学术论文、财报、临床试验登记信息等),严禁“开天眼”偷看未来的实际结局。在这 20 个生死决策中,包含 10 个历史回顾案例(已有明确结果),以及 10 个前瞻性案例(发生在 2023 晚期至 2025 年之间,成败要到 2027-2031 年才能揭晓)。通过这场博弈,作者试图清了 AI 决策的底色,总结出了AI决策的底层规律。
02. 规律一:共识的下限极高,AI 是完美的“老实人”
在历史案例中,只要正确的路径符合当时的主流专家共识,AI 的表现就堪称封神。
- 案例:诺和诺德(Novo Nordisk)砸钱肥胖症(2016年)
- 行业背景:
当时的减肥药市场被戏称为“商业荒漠”,研发难度大、安全性风险高,大厂纷纷退缩。
- AI 的抉择:
两个 AI 团队在看完司美格鲁肽二期临床中 12%–15% 的惊人减重幅度后,冷酷地指出:这是行业“质的飞跃”,支持公司砸下十几亿美金开启 STEP 三期临床。
- 现实结局:
如今 Wegovy 风靡全球,减肥药市场暴涨,成为全球制药史上的神话。
洞察: AI 没有任何人类高管的“沉没成本谬误”、内部政治斗争或短期财务指标压力。在客观整合现有证据、推导合乎逻辑的“主流最优解”时,AI 能够提供极高水准的决策下限。
03. 规律二:特立独行的上限极低,AI 永远不会“豪赌”
然而,一旦行业迎来了需要逆向思维(Contrarian Bet),或者在缺乏直接证据时进行“信念一跃”的时刻,AI 就露怯了。这里有一个长达 22 个月的“时空打脸”:
- 时空 A(2012年):BMS的 CheckMate-026 惨败
- 商业决策:
BMS 在设计抗癌神药 O 药的一线肺癌临床试验时,面临两个选择:全人群方案,赢了就能独吞万亿市场;还是通过 PD-L1 指标只筛选部分患者(富集筛选方案,更稳妥但市场会变小)。
- AI 与人类的集体翻车:
当时全行业关于该标记物的数据极其稀少。AI 智能体冷酷地算了一笔账:“数据太薄,不值得为它缩窄市场。” 最终 AI 顺应了当时的行业偏见,支持了全人群方案。这与真实历史中 BMS 管理层犯下的致命错误一模一样——试验最终惨败,一线肺癌的江山拱手让人。
- 时空 B(2014年):默沙东的逆袭
- 转机:
22 个月后,相同的 AI 团队去推演默沙东对 K 药的决策,此时 AI 却 180 度大转弯,坚定地选择了“只筛选 PD-L1 极高表达患者”的富集策略。为什么?
- 残酷的真相:
不是 AI 变聪明了,而是过去的 22 个月里,人类科学家疯狂做实验,把证据库喂饱了。数据变厚了,富集策略成了“新共识”。
洞察: AI 本质上是一个共识推理者。它只能在证据基础发生变化后,随之翻转决策;而真正伟大的人类破局者,是在证据尚未形成的迷雾中,凭借偏执去创造证据。AI 永远给不了你对抗共识的勇气。
04. 规律三:框架压倒模型,别再迷信最新的大模型了
实验中一个颠覆认知的发现是:尽管 Claude 和 GPT 拥有不同的参数和技术,但在“最终采取什么行动”上,两者的吻合度高达 90%。这意味着,智能体角色扮演的架构(比如强制加入合规、商业竞争等视角的相互辩论)、提示词流程的设计,比你调用具体哪一个版本的 LLM 要重要得多。想让 AI 帮你做决策,花精力升级工作流框架,远比傻傻等待下一个模型更新要有价值。
05. 盲测未来:10 个前瞻性当前案例的大博弈
为了彻底打消“AI 只是在训练数据里读过答案”的质疑,作者让升级版的 7 人 AI 高管团队(加入了 CFO 和专门抬杠的特立独行董事)对当下的 10 个悬而未决的真实制药巨头决策进行了盲测推演(篇幅限制本文只摘取4个):
- 诺和诺德竞标 Metsera:
AI 敏锐识别出长效 GLP-1(每月注射一次)的威胁,支持拦截,但精准算到了美国 FTC 的反垄断红线(现实中诺和诺德确实因反垄断压力被迫退出竞标)。
- 阿斯利康与第一三共的 Dato-DXd 申报:
面对临床数据中部分人群的致命毒性风险,AI 强烈警告不要贪大,建议主动缩窄申报范围以“保护整体管线叙事”(现实中两家巨头硬闯全人群全 label 碰壁,最终不得不像 AI 建议的那样妥协缩窄标签)。
- 艾伯维(AbbVie)对 emraclidine 的暴雷止损:
面对 87 亿美元买来的精神病新药二期临床意外溃败,AI 展现了极其冷酷的商业止损逻辑:立即叫停所有单药三期临床,及时计提资产减值,并迅速转产开拓辅助治疗或其他精神病领域(现实中艾伯维的做法与 AI 的 salvaging 挽救方案高度吻合)。
- BridgeBio 后来者的蚕食定价:
面对辉瑞长期垄断且高昂的心衰药,AI 精准建议采取 “Parity-minus”(略低于平价,约 9% 折扣) 的市场准入策略,既学到了高端定位又给医保医院更换处方的财务激励(现实中该药精准以该价格上市,首季利润轻松打爆华尔街预期)。
结语:商业世界不需要完美的传声筒
AI 高管在 90% 的案例中达成一致,这恰恰证明了它的局限——当全行业的共识都在走向悬崖时,AI 也会充满逻辑、极其理智地陪着人类一起走向毁灭。
对于企业来说,AI 是一个完美的“降噪器”和“纠偏镜”,它能强制逼你的团队看清冷酷的数据事实,剔除掉自大和办公室政治。但面对未知的、反直觉的、需要颠覆规则的未来,那临门一脚的“惊天一跃”,依然需要人类高管自己带上无畏的勇气。因为 AI 的字典里只有概率,而商业的奇迹,往往诞生于信念。
夜雨聆风