罗汉严选 | 是 AI 导致了美军对伊朗小学的误炸吗?

导言

在美国对伊朗采取军事行动的第一天，一所伊朗小学被轰炸，导致近 180 人丧生，其中绝大多数是 7 到 12 岁的女孩子。空袭发生后，不少人立刻将矛头直指 Anthropic 公司的大语言模型 Claude，质疑它在美军的目标定位中出现了致命的失误。然而，真的是 AI 模型导致了这场误伤平民的惨剧吗？当我们被 AI 热潮裹挟，本能地将责任推给算法时，是否忽视了其他更长久的因素呢？美军的误伤，究竟是技术问题，还是另有组织和系统层面的原因呢？

针对这个问题，我们关注到了一篇发表于英国《卫报》（The Guardian）的深度文章。作者凯文・贝克（Kevin Baker）是美国西北大学的历史学博士。

贝克以军事行动中的 “打击链”（Kill Chain）为例，深刻剖析了现代组织在引入 AI 时面临的深层陷阱。文章指出，这场悲剧的真正推手并非大语言模型，而是定位任务的底层自动化系统对决策速度的盲目追求。为了实现每小时做出上千次定位打击决策的极致效率，美军系统的设计者将复杂的研判过程压缩成了流水线式的确认操作，希望用自动化技术来尽可能地消除拖慢进度的各种因素。

然而，一些看似低效的摩擦与延迟，恰恰是组织中的人发挥判断力去发现问题并及时做出调整的关键缓冲。由此，作者犀利地揭示了现代组织在走向自动化过程中的矛盾：为了追求绝对的标准化与控制感，组织倾向于将管理规则 “编码化”。而当一个组织目标在系统中被构建后，它的合理性往往变得不容置疑，即便它建立在错误的基础上。

这不仅是对自动化技术的警示，更是对所有追求极致效率的现代组织的诘问：当 AI 被用来剔除人类的判断空间时，技术并没有消除组织中的错误，它只是以一种无人能够阻挡的速度，将错误彻底自动化了。

原文标题：AI got the blame for the Iran school bombing. The truth is far more worrying

Kevin Baker

2026 年 2 月 28 日，在代号为 “史诗狂怒行动” (Operation Epic Fury) 的第一天，美军就空袭了伊朗南部米纳卜 (Minab) 的沙贾雷・塔耶贝小学 (Shajareh Tayyebeh primary school)。这栋建筑在当日上午被击中了至少两次，导致 175 至 180 人丧生，死者之中绝大多数是 7 到 12 岁的女孩。

袭击发生后，大家的质疑都指向了 AI 模型在其中扮演的角色：Anthropic 公司开发的 Claude 模型是否成为了挑选这所学校作为攻击目标的幕后黑手？美国国会致信国防部长皮特・海格塞斯 (Pete Hegseth)，质询 AI 在这场致命空袭中的角色。知名媒体《纽约客》 (The New Yorker) 也刊文探讨是否应在军事行动中信任这类 AI 模型。然而，这些讨论实际上都不得要领。在美军的这次行动中，定位指令实际上是在一个名为 Maven 的系统中运作的，但却没有人注意到这一关键点。

八年前，Maven 曾是硅谷最具争议的项目。2018 年，超过四千名谷歌 (Google) 员工联名签署公开信，强烈抗议该公司为五角大楼（即美国国防部）开发用于军事目标定位的 AI 系统。这场声势浩大的抵制行动最终迫使谷歌放弃了该项目。随后，该项目由彼得・蒂尔 (Peter Thiel) 联合创办的数据分析公司兼国防承包商 Palantir 接手。在接下来的六年里，他们将 Maven 打造成了一整套目标定位的基建系统。该系统可以将卫星图像、信号情报和传感器数据汇集在一起，用于从首次发现目标到下达打击命令的每一步。

而伊朗米纳卜的那栋被袭建筑在美国国防情报局的数据库中，一直被错误地标记为军事设施。据报道，该数据库并未及时更新，未能反映出这栋建筑最晚在 2016 年就已与相邻的伊斯兰革命卫队驻地分离，并改建为一所小学。因此，杀死这些孩子的并非是 AI 模型。真正的原因在于：一部分人没有及时更新数据库，而另一部分人却构建了一个速度极快的系统，将前者的失职瞬间转变成了不可挽回的错误。

当美伊战争爆发时，Maven 系统已经沉淀为美军系统的底层架构，而后来的争论却全都针对 Claude。这种对 Claude 的痴迷是一种典型的 “AI 狂躁症” (AI psychosis)。无论是 AI 技术的批评者和反对者，还是其狂热支持者，甚至是还没用过大语言模型 (LLM) 的人，都受此影响 —— 它会强行吸引你的注意，并扭曲你的思考方式。

有学者指出，某些技术就像磁铁一样，可以将所有的注意力、资源和归因（attribution）都牢牢地吸引过去。我们通常也称这种现象为 “炒作” (hype)。炒作不仅是说这种技术的支持者非常狂热，它也赋予了其批评者一种看似可以揭穿真相的特权。正是这两者的结合将这项技术锁定在每一次公众争论的中心，就像磁铁那样重塑其周围的整个语境。

今天的 AI 大语言模型可能是有史以来最为显著的例子。到美伊战争爆发时，“AI 安全” (AI safety)、“对齐” (alignment)、“幻觉” (hallucination) 和 “随机鹦鹉” (stochastic parrots) 已经成为 AI 讨论中经常出现的标准词汇，牢牢限定了我们思考和表达的边界。更糟的是，“人工智能” (artificial intelligence) 本身已经成了大语言模型的同义词。当伊朗学校被炸时，人们不假思索地拿出来讨论的也是这些词汇 —— 尽管用于军事目标定位的技术实际上是更老也更成熟的技术栈 (stack of technologies)。没有人去质问真正的问题：它根本不在于 Claude 或任何大语言模型，而在于军事行动的组织层面 —— 或者叫做 “打击链” (kill chain) —— 出了什么状况。这个问题的答案就在于 Palantir。

“打击链” 是一个非常直白的军事术语。本质上，它指的是从发现目标到摧毁目标之间的各个行动步骤和组织框架。这个词最早的记录可以追溯到上世纪 90 年代，但其核心理念却十分古老，至少始于 1760 年代的法国炮兵改革，当时他们开始用弹道计算表和标准化的射击程序，取代来自于炮手肉眼的经验判断。事实上，“打击链” 的步骤一直在变化，这不仅是为了适应定位准则（targeting doctrine）的变化，也是为了迎合各种军事管理思潮。所以我们看到，在过去 80 年中，美军对这些步骤进行了反复的重命名。二战时的 “打击链” 被定义为 “发现、定位、战斗、终结”（find, fix, fight, finish）。到了 90 年代，空军将其拉长为 “发现、定位、跟踪、瞄准、交战、评估”（find, fix, track, target, engage, assess），简称 “F2T2EA”。尽管缩写字母增加了，但每一代军事技术都号称能压缩 “打击链” 的环节。

Palantir 开发的 Maven Smart System 便是这种压缩理念的最新版本。它最初源自奥巴马第二任期内的战略思路转型。2014 年，时任美国国防部长查克・哈格尔 (Chuck Hagel) 和副部长罗伯特・沃克 (Robert Work) 提出了 “第三次抵消战略” (third offset strategy)。所谓 “抵消”，就是一国利用某一方面的技术优势来弥补其无法直接解决的战略劣势。前两次抵消战略解决的是同一个问题：美国在常规兵力上不及苏联。50 年代的第一次抵消战略（即核武器）抹平了苏方的人员数量优势。当苏联在 70 年代于美国达到核均势时，精确制导武器和隐形技术作为第二次抵消战略，力争保证美军能以少胜多。到了 2014 年，美军的这项优势正在消失，俄军花了二十年的时间追赶精确制导武器技术，并建立了针对美式装备的防御系统。沃克认为，第三次抵消战略将不在于任何特定技术，而在于利用技术重组军队的运作方式，让美军的决策速度超越对手，用对方无法企及的作战节奏来压垮并扰乱他们。

2017 年，在特朗普第一届政府初期，沃克协助建立了 “算法战跨职能小组”（Algorithmic Warfare Cross-Functional Team），即代号为 Maven 的项目。该项目负责人之一杰克・沙纳汉中将 (Lt Gen Jack Shanahan) 指出，用于监视的无人机可以传回海量的视频，从而导致情报分析人员将大量的时间耗费在了视频分析这样的琐碎任务上，而且根本看不完。他认为，不能再靠投入更多人力来解决这个问题。这个项目的核心目标就是要让机器去看视频、让人去思考。

在谷歌退出后，Palantir 于 2019 年接手了 Maven 项目。2020 年，美军第十八空降军在一场名为 “绯红巨龙” (Scarlet Dragon) 的演习中开始测试该系统，最初只是在布拉格堡 (Fort Bragg) 一个地下室中进行桌面的战争推演。演习的初衷是为了看看这一系统能否赋能一个小规模的战术团队，使其具备过去需要上千人团队才能达到的目标定位能力，从而打造出美国陆军的第一支 “AI 赋能部队” (AI-enabled corps)。

在其后的五年里，“绯红巨龙” 演变为跨越多个州和军种的实弹军演，来自 Palantir 等承包商的 “前沿部署工程师”（forward-deployed engineers）与士兵并肩作战。每次演习都试图回答同一个问题：从发现目标到做出打击决策到底能有多快？他们对比的标杆是 2003 年的伊拉克战争，当时需要 2000 人协同处理整个战争的目标定位。而在演习中，20 名士兵借助 Maven 即可完成同等的工作量。到 2024 年，目标是在一小时内做出 1000 次定位决策 —— 这意味着平均每 3.6 秒做出一项决策，或者说每个 “定位员”（targeteer）每 72 秒就要决定一次生死。

在美军对伊朗的军事行动中生成 “打击目标包” (target packages) 的正是这套 Maven Smart System，而不是 Claude。从 Palantir 的公开材料中，我们可以对这套系统窥得一个大概。它的界面基本上就像是企业项目管理软件与地图应用的结合体，加上了一层军事用途的外壳。摆在军事分析员面前的是一张叠加了各层情报数据的地图，以及一个被划分成多列的屏幕，每一列对应了定位过程的一个阶段。随着定位工作流的推进，每个打击目标会像流水线上的零件一样在各列之间从左向右移动，类似于丰田式 “精益制造”（lean manufacturing）中的 “看板” (Kanban) 管理。

在 Maven 问世之前，操作员要在八九个不同的独立系统间反复提取、交叉比对数据。Maven 提供了一个统一的 “抽象层” (abstraction layer)，将这些不同的系统整合在同一个交互界面中。虽然表面上看是人在操作定位系统，但在交互界面底下，机器学习系统通过分析卫星图像和传感器数据来发现并区分目标，对每个目标的置信度进行评估。操作员只需点击三下，就可以将一个数据点转化为正式目标，启动定位流程，并逐一经过各阶段的决策分析。系统甚至会根据交战规则，自动推荐最佳的武器搭配和 “行动方案” (course of action)。指挥官从中做出选择后，系统还可以将该打击目标包推送到执行端。

位于这一界面底层的核心 AI 并不是大语言模型，而是一些更老的技术。此类技术也被用于识别照片库里的宠物图片，或让自动驾驶汽车整合多种信息输入并形成完整的路面图像，只不过在这里被用于军事上的无人机、卫星和雷达图像数据。Claude 或任何大语言模型都不负责发现目标、整合数据或匹配武器。大语言模型是在 2024 年底才被加入到 Palantir 的生态中去的，以方便军事分析员用日常英语检索和汇总情报报告，这才是 Claude 起到的作用，但这从来不是这套系统的核心。

Maven 系统的本质在于改进目标定位流程：整合系统、压缩时间、裁减人力。这其实并不是一件新鲜事。一直以来，美军都试图抹平 “发现目标” 与 “摧毁目标” 之间的时间差。但每一次的尝试都以失败告终，Maven 甚至都不是最极端的案例。

1960 年代末，美军在越南战争中也面临了类似的问题。当时，北越的物资沿着胡志明小道向南运输，依靠茂密的丛林作为掩护。美军启动了耗费巨资的 “白雪行动” (Operation Igloo White)，沿着小道空投了数万个声学和震动传感器。这些传感器将数据传给美国军机，飞机再将信号传送给在泰国的美军基地，由基地的 IBM 360 计算机来分析这些数据并预测北越车队的位置，然后引导轰炸。但这套系统只能探测声音和震动，却无法区分卡车和牛车。北越军队很快发现了这一点。他们通过播放录音、驱赶牲畜和挂尿桶等各种方式成功地误导了美军。美国空军声称在一年内摧毁损坏了 4.6 万辆北越卡车，而中央情报局指出这比全北越拥有的卡车总数还要多。为了掩盖找不到残骸的尴尬，空军甚至捏造出一种吃卡车的巨兽。

系统自身输出的结果成了衡量其性能的唯一标准。历史学家迈克尔・雪莱 (Michael Sherry) 将这种迷信系统自身输出的模式称为 “技术狂热” (technological fanaticism)：对成功的盲目信念，助长了人们对如何实现成功的不严谨态度。早在 1940 年代，欧美的军事分析员就已经开始用工业优化（industrial optimisation）的语言来谈论轰炸的效果。对于投下的每一吨炸弹，分析员都会精确地计算出它摧毁了多少小时的敌方劳动力。一份英国的评估报告甚至将轰炸机本身视为一种资本资产。

这并不是说有谁故意选择了毁灭，而是说那些不断改进轰炸技术的人，已经不再去追问轰炸的目的究竟是什么。并不是分析师将这种逻辑强加给了军方，而是军方本身就早已将作战经验转化为了系统化程序。其实人们并没有停止做出判断。只是这些判断不再是关于轰炸是否符合战略目的，而是关于如何衡量轰炸效果，以及如何优化这些衡量标准。

十九世纪的普鲁士军事家 —— 也是现代西方军事思想的奠基人 —— 卡尔・冯・克劳塞维茨 (Carl von Clausewitz) 将军曾用 “摩擦” (friction) 一词来概括被优化所遗漏的东西，也就是不确定性、错误和矛盾，这些因素的积累导致没有任何军事行动会完全按计划发生。但摩擦同时也是判断力的来源。经历了这些考验的指挥官，就像眼睛会逐渐适应黑暗环境并利用好仅有的微光，而不是一味要求获得更好的光线。这个过程是需要时间的。压缩时间便不会消除摩擦，只会让人对其视而不见，最终沦为脱离现实的纸上谈兵。

空中打击在这方面尤其受到影响。飞行员永远看不到炸弹实际击中了什么，分析师则依靠图像、坐标和数据库工作。整个过程都是基于打击目标的表征（representations），而非目标本身。这意味着 “打击目标包” 与真实世界之间的距离可能会更大，而整个流程中却没人能察觉到这一点。

2003 年的伊拉克战争就是一个典型的例子。当时掌管高价值目标（high-value targeting）打击行动的美军负责人马克・加拉斯科 (Marc Garlasco) 建议对伊拉克领导层进行 50 处打击，并以前所未有的速度完成了目标定位的过程。美军的炸弹准确无误地击中了瞄准的地方，但其背后的情报却并不准确。这 50 次打击没有一次消灭了预定的打击对象。两周后，加拉斯科离开了五角大楼，加入了人权观察组织 (Human Rights Watch)。他亲自前往伊拉克，察看了自己曾设定为目标的弹坑，懊悔不已。快速定位的确可以实现大范围的打击，却无法发现它击中的全是错误的目标。

根据美国空军的目标定位手册，这种情况本不该发生，但它却一再在现实中上演。军事研究者、前海军情报官乔恩・林赛 (Jon Lindsay) 指出，一旦一个目标在 PowerPoint 幻灯片（PPT）上被具象化，成为一个 “目标情报包” (target intelligence package, or TIP)，它就变成了一个不容置疑的黑盒子。随着打击行动的深入，情报包里的信息越来越多，也越来越难以去质疑其背后的假设。也就是说，构建一个目标比检查其背后的信息质量要容易得多：人们变得不愿去质疑某些目标是否可能是潜在的盟友，或者根本就不是坏人。正是因为目标定位工作中存在的这些问题，导致其他缺乏训练或没有经验的人也参与了进来，这也包括今天的 Maven 系统。

在 1999 年的科索沃战争期间，美军高层要求打击 2000 个与米洛舍维奇政府有关联的目标。但在整场战争中，中央情报局其实只提名了一个目标：南斯拉夫的联邦供应与采购总署。分析员手中只有一个街道地址，并没有坐标，所以他们从三张过时的地图上逆向推导出了这个位置。结果，他们不幸击中了中国大使馆，导致三名中国记者丧生。美国国务院当然是知道中国大使馆在不久前搬入了这个地址，但军方的数据库却没有及时更新，目标审查环节也未能发现这一错误。那张关于该目标的 PPT 看起来与其他目标的资料一样可信。在空袭当晚，一名情报分析员打电话给总部表达了疑虑，但最终无济于事。林赛将此称为 “循环验证” (circular reporting) ：一系列支持性文件制造了经过多次验证的错觉，但因为每一次验证都依赖于上一次的结果，实际上却放大了同一个错误。

根据一项对伊拉克战争的研究，英美两军在时效性目标定位（time-sensitive targeting）的处理方式上存在着相当差别。当时，英国皇家空军与美国空军的军官在联合指挥中心共同领导这场空袭。但英国军官往往遵守更严格的交战规则，也更为保守和谨慎。美国指挥官总是全速推进，而英国军官在批准任务之前会有条不紊地重新评估风险、权衡成本收益。在英国主导的班次上，没有发生过友军误伤，也没有造成重大的平民伤亡。在许多时候，英国军官对匆忙而混乱的进攻节奏起到了有效的 “阻尼作用”（dampening effect）。从效率的角度来看，英国军官的这些特征可能都会被视为缺陷，导致他们的决策速度更慢，行动也受到更多约束。但正是这些被视为是 “延迟” (latency) 的因素 —— 即识别目标和实施打击之间的时滞 —— 提供了发现并纠正错误的缓冲窗口。

速度或许可以挽救生命，但在 Maven 出现之前，最快的目标定位行动打击了 50 座建筑物，却没有击中一个预定目标。而 Maven 和随后的 “绯红巨龙” 演习则改变了这一切：各种关于目标定位的分歧消失了，审慎（deliberation）消失了，犹豫消失了，那些让人们有时间提出反对意见或察觉到异常的缓冲窗口也都消失了。

一个依赖正式程序运行的组织，需要有人在流程内部去解释规则，注意例外情况，并做出及时调整以符合当前情况。如果我们承认组织运行的结果依赖于执行人的判断力（discretion），那么程序就只是建议，规则就不再具有权威性。为了避免消解组织的权威性，主观判断必须被伪装成其他的样子：它必须看起来像是在遵循程序，而不是在解释程序。

我们可以将此视为 “科层组织的双重束缚” (bureaucratic double bind)：缺乏判断力，组织就无法运作；但组织又不能承认这种判断力，否则就会削弱自身的权威，并被视为是带有政治偏见的。解决这个矛盾的一种方法是用数字取代判断。组织采用可量化的规则，并不是因为数字更准确，而是因为它们更容易辩护（defensible）。在政治上，判断往往是容易被攻击的（vulnerable），而规则却不是，所以规则和程序的存在可以掩饰判断。一个系统真正的灵活性正是来自于这种未得到承认的解释性工作（unacknowledged interpretive work），但这也意味着它可能会被误认为是妨碍效率。

历史学家大卫・诺布尔 (David Noble) 曾发现，当美国军方和美国制造商对其工厂车间进行自动化改造时，他们总是会选择那些更慢、更昂贵，但却能将决策权从工人转移到管理层的系统。其目的根本不是为了效率，而是为了控制。一个理解自己工作内容的工人具有机构无法控制的判断力。而如果将这种理解力转移到系统中，那么工人除了听从指令外就无事可做了。

Palantir 的首席执行官亚历克斯・卡普 (Alex Karp) 在 2025 年出版的《技术共和国》 (The Technological Republic) 一书中恰恰描述了这种 “成就”。他认为软件是最重要的技术，硬件则是在现实世界中执行 AI 建议的手段。他的想象来自于大自然：蜂群和成群结队的椋鸟。侦察蜂返回蜂巢后，他们获得的信息不需要任何中介传递。椋鸟不需要上级的许可，不需要开会作报告。这听起来像是一种解放，甚至带有乌托邦色彩。但这种无需中介传递的信号，同样也会成为无人能够质疑的信号。

卡普认为 Palantir 正在终结科层制组织。但实际上他是在将其编码化。他把开会、周报、简报等同于科层制程序本身，并对此不屑一顾。但事实并非如此：正是在这些场合，人们可以讨论和解释组织的程序，并做出调整以符合现状。在卡普的想象中，定位准则仍然存在，它们现在变成了工作流面板上的各列，是目标在被击中之前必须经历的各个阶段。他想要消除的，是组织往往不愿承认、但实际上却相当依赖的判断力。这样的结果就是剩下一个能够执行自身规则、但不再有人能解释这些规则的组织。被编码的组织将会失去变通性，脆而不韧。

回到伊朗米纳卜的那所小学。它的目标定位包符合军事设施的所有分类特征。这些计划在事后看起来总是 “完美无缺” 的。它们会过滤掉一切不符合其分类标准的信息来达到这种 “完美性”。这份目标包看起来就和其他所有的目标包一样。但如果跳出这套系统，我们可以发现这所学校清晰地出现在伊朗的商业名录中，它在谷歌地图上也是可见的，普通的搜索引擎就能找到它 —— 但是没有人去搜索。在每小时需要做出 1000 次决策的压力下，没有人会去进行这种搜索。一位前政府官员质问道：“这座建筑在目标名单上已经存在了好几年，为什么就没有人意识到这个问题？”

美国国会并没有授权这场战争。美军在两周内打击了 6000 个目标，这所学校只是其中之一。近 200 名平民丧生，而媒体和政客却将焦点集中在 “AI 错误” (AI error) 上，从而将这一悲剧转化成了一个只要有更好的算法或更好的指导就能避免的技术问题。在空袭发生后的几天里，关于 AI 的问题主导了整个政治对话：Claude 是否产生了幻觉，模型是否经过了对齐，Anthropic 是否应该对其部署承担责任。至于这场战争是否符合美国宪法授权，以及这次空袭是否构成战争罪，这些问题都让位于 AI 技术的问题。技术的问题容易提出，却不容易得到解答，这也正是 AI 的魅力（charisma）所在。

它掩盖了一些更深层的东西：那些导致 175 至 180 人（其中大多数是 7 到 12 岁的女孩）丧生的人为决定。压缩 “杀伤链” 是某些人的决定。审慎被某些人视为效率低下。某些人要构建一个每小时能做出 1000 次定位决策的系统并将其称为高质量。某些人决定发动这场战争。美国国会的数百人坐视不管，拒绝阻止这一切。将这一切轻描淡写地称为 “AI 问题”，恰恰为这些决定以及做出这些决定的人，提供了一个绝佳的替罪羊。

【原文链接：https://www.theguardian.com/news/2026/mar/26/ai-got-the-blame-for-the-iran-school-bombing-the-truth-is-far-more-worrying】

推荐阅读