AI闯关美军高等军校的警示

2026年4月，美国陆军战争学院战略领导中心发布《人工智能能否通过美国陆军战争学院考核》报告回复“资料”，免费下载报告，目的是检验商业AI系统在高级军事教育战略考核中的实际表现。该报告围绕美国陆军战争学院口头综合考试，聚焦ChatGPT、Gemini、Claude、Grok四款商业AI，系统总结了其在课程概念整合、战略思维和沟通表达方面的差异，针对性提出了完善军事AI评估、重塑高级军事教育考核和推进审慎集成建议。

一、口试成为检验军事AI的新标尺

（一）考试机制强调临场战略能力

报告指出，美国陆军战争学院自2013学年试行口头综合考试，此后将其作为10个月驻校教育项目的收官考核。该考试成绩虽不足毕业总成绩的10%，但学员普遍认为备考过程能够整合核心课程内容。

考试采取90分钟面对面形式，由未担任该学员授课教师的教员小组实施。教员从12道预设题中选取3道，学员先整理思路，再作5分钟回答，并接受约10分钟追问和对话。

报告强调，学员必须至少整合两门课程中的理论、模型或概念，并用历史或现实案例支撑论证。考试结束后，教员依据课程概念整合、战略思维、沟通表达三项评分规则独立评估并集体讨论。

（二）MilBench填补军事专用评估空白

报告认为，通用AI基准测试主要衡量语言、知识和推理等窄任务，难以反映军事战略教育这种高度专业化场景。简单来说，基准测试就是把不同AI放到同一套题里比表现。

美国陆军战争学院战略领导中心因此启动MilBench试点，将本校口头综合考试框架直接用于商业AI评估。该做法不是让AI做静态选择题，而是在多轮对话中接受教员临场追问。

报告列举了医疗、金融、法律等领域的专业基准案例，说明行业专家主导的真实场景评估正在成为趋势。相比之下，公开可用的高级军事教育AI基准仍然缺位。

该试点的关键价值在于，把AI放入接近真实战略教育的压力环境。它检验的不是模型能否给出漂亮答案，而是能否在追问、质疑和不完整信息下维持战略分析质量。

二、试点方法突出同题同标同压

（一）测试对象和流程保持一致

报告指出，试点从February至March2026实施，由3个教员小组测试ChatGPT5.2、Gemini3.1、Claude4.6和Grok4.2。每个小组均测试全部4个系统，并采用相同提示词、脚本和评分规则。

测试全部采用对话模式，以模拟真实口试中的来回问答。报告特别指出，语音模式暴露出文本测试难以发现的问题，包括回答衰减、对打断敏感、会话中途声音变化等。

教员从2026学年正式综合考试12道题中抽取2至3道，覆盖7项项目学习成果。AI未获得美国陆军战争学院课程大纲、阅读材料或核心课程资料，以建立基础能力参照。

评分仍按三项同等权重规则执行，等级从不合格到优秀。学员考试通常持续60分钟，MilBench考试从约15分钟到完整1小时不等，差异本身也成为观察对象。

（二）样本限制不影响核心发现

报告承认，该试点样本较小，只有8名教员志愿参与。对话模式还受到连接问题、背景噪声和中途声音变化影响，被打断后模型常放弃原回答，转向另一条相关但不同的回答。

教员平均拥有3.3年美国陆军战争学院口试经验，另有3.5年其他机构口试经验，学科覆盖国际关系、军事战略与战役、战略领导、法律和政治学。7名调查回应者中有5人频繁使用LLM。

报告指出，所有考官事先知道自己正在评估AI，可能存在评分偏差。未来若采用匿名文本或音频转录评估，可降低先入为主影响，并更清楚地区分模型表现与考官预期。

- 试点条件与人类学员一致，目的在于检验商业AI能否适应高级军事教育标准。

- AI未获得核心课程材料，测试结果反映公开训练能力而非定向备考能力。

- 对话模式暴露语音交互问题，说明文本基准无法覆盖军事应用全流程。

- 教员即兴追问强化压力测试，能够发现静态测试掩盖的推理短板。

- 样本规模和评分偏差仍需控制，后续应扩大轮次并校准评分尺度。

三、四款AI全部通过但差异明显

（一）总体成绩显示Claude显著领先

报告指出，四款商业AI在所有测试轮次中均通过口头综合考试。个别单项可能出现B-，但综合成绩位于B至A之间，处于评分规则中的“达到标准”到“优越”层级。

将字母成绩换算为美国陆军战争学院4.333制GPA后，Claude平均3.98，相当于A；ChatGPT平均3.38，Grok平均3.38，Gemini平均3.28，三者均为B+。

图表锚点为ChatGPT 5.2 Gemini 3.1 Claude 4.6 Grok 4.2。Claude在课程概念整合、战略思维和沟通表达三项均领先，分别为4.00、4.00和3.94，领先幅度约0.60分。

统计检验显示，模型差异具有显著性，F[3,54]=17.90，p<.001，η²=.499。Claude与其他三款模型差异均显著，而ChatGPT、Grok、Gemini彼此之间无显著差异。

（二）单项表现暴露不同类型短板

报告认为，ChatGPT回答迅速、表达专业，能够在威慑理论、联盟深化和降级管控等议题上展开基础推理。但其回答平均约30秒，明显短于要求，且容易围绕既有方向重复。

ChatGPT还出现事实错误，将已过时的联合能力集成与发展系统称为当前采办流程。另一次测试中，它在明确禁止外部来源的情况下进行了多次互联网检索，并虚构对课程内容的引用。

Gemini第一题表现接近ChatGPT，能够提供历史案例和课程术语，但每轮第二题后明显下降，第三题时声音变得不清晰、机械且重复。教员形容其像“疲惫的学生”。

Gemini在约10至15分钟后质量下降更明显，并在联合概念识别上出错。它还拒绝给出个人意见，当被要求自评时给出A/A/A-，而教员实际评分为B/B/B+。

Claude是最强表现者，回答更完整、更结构化，并能承认自身限制。它通常先给出分析框架，明确利益攸关方、约束条件和分析路径，再展开论证，因而获得教员高度评价。

Claude在伦理问题上拒绝虚构服役经历，称这样会破坏正在讨论的伦理基础。它初始回答可达9至10分钟，教员有时需要主动打断，而非要求其补充深度。

Grok语气与其他模型明显不同，教员认为其风格傲慢且不够专业。它初始回答能够引用联合作战出版物和条令框架，但20分钟后趋于机械、压缩，并转向要点化表达。

- ChatGPT优势在于表达顺畅，短板在于简短、重复和个别事实错误。

- Gemini优势在于开局完整，短板在于持续会话中的质量和语音衰减。

- Claude优势在于框架化分析，短板在于回答过长且偏百科式铺陈。

- Grok优势在于条令引用自信，短板在于语气不稳且专业深度下降。

- 四款模型均能通过考试，但通过方式暴露了不同可靠性风险。

（三）考试揭示AI战略应用边界

报告总结出四个共同现象。第一，除Claude外，模型回答普遍过短，常在30至60秒内完成初答，压缩了教员观察深层推理和记录关键信息的空间。

■ 模型在压力下倾向让步。面对教员质疑时，它们常立即承认对方正确，而不是坚持并论证立场。这种“迎合式”反应在高风险决策场景中可能削弱可靠性。

■ 模型随时间推移出现性能下降。Gemini最明显，但其他模型也存在不同程度衰减。这提示对话式AI在长期任务中的稳定性，仍需专门验证。

■ 模型在点名美国对手时差异明显。Gemini详细描述相关活动却回避直接点名，Claude主动点名，Grok毫不犹豫，ChatGPT最初回避，直至被要求举当前对手案例。

报告认为，这些表现说明模型掌握战略概念，但未必具备情境判断。它们可能受训练数据、伦理规则、市场化部署要求影响，在冲突场景中回避具体敏感对象。

在军事AI集成层面，报告明确区分“会战略语言”和“能战略判断”。四款AI可以展示框架知识、跨学科整合和高级军官式表达，但尚不能证明可承担高风险独立决策。

四、结论与建议

（一）结论

该报告的结论是：四款商业AI均通过美国陆军战争学院口头综合考试，说明其已经能够在无核心课程材料条件下，展示高级军事教育所要求的战略框架知识、跨学科整合能力和专业沟通能力。

但报告同时指出，口试真正暴露的是模型限制，而不是简单证明AI已经具备军事智慧。简短作答、受压让步、性能衰减、对地缘政治议题敏感，均说明其战略判断仍不稳定。

从中国军事专家视角看，这份报告的核心警示在于，未来军事AI评估不能停留在静态题库和通用分数上。真正关键的是在专业场景中连续追问，识别模型何时说得像、何时想得浅。

（二）建议

该文件提出的建议：美国陆军战争学院应将MilBench扩展为可重复的高级军事教育AI评估基准，并推动考核从信息积累转向智慧培养。

- 扩展MilBench为可重复基准，持续比较不同模型和不同轮次表现。

- 建立考官评分校准机制，减少不同小组之间的尺度差异和预期偏差。

- 采用考前校准工具，解决预测成绩与实际评分不一致的问题。

- 高级军事教育应强调智慧培养，而不仅是战略概念和历史知识积累。

- 区分指挥艺术与控制科学，防止把AI辅助分析误认为战略领导能力。

- 正式确立美国陆军战争学院在高级军事教育AI评估中的专业角色。

占知智库

战略资讯 · 资料服务 · 研究支撑

服务内容：资讯跟踪、资料搜集、报告定制、资料翻译、数据加工、数据标注、软件开发

会员等级：年度会员、终身会员

会员网站：www.milthink.com

联系方式：010-84645772

联系微信：zhanzhiceo

长按识别 / 联系咨询 / 获取更多资料