我让5个AI预测特朗普访华,结果它们在黄仁勋的问题上打起来了

事情是这样的。2026年5月13日，特朗普的专机降落在北京。中美两国领导人要坐下来谈——谈中美贸易、谈国际安全、谈人工智能，最重要的，谈芯片。

坦白说，这种级别的新闻，我本来打算刷个热搜就完事。但突然脑子里冒出一个邪念：这些AI成天标榜自己逻辑严谨、信息全面，你让它预测一下明天会发生什么，它能靠谱吗？

说干就干。我把同一个问题甩给5个主流AI模型——Gemini 2.5 Pro、Kimi K2.6、GPT-5.5、Doubao-Seed-2.0-Pro和DeepSeek-V4-Flash，让它们对5个核心悬念做出“是/否/不确定”的判断，还得附上置信度和理由。

结果怎么说呢——它们在我屏幕上当场打起来了。但不是在所有问题上都打。

前两道题，五个AI穿一条裤子

先说最无聊的发现——无聊到让我差点关掉电脑。

第一问：会谈结束，会不会发联合公报或声明？

Gemini、Kimi、GPT、豆包、DeepSeek，齐刷刷说“是”。置信度从7分到9分，没有一个犹豫的。

理由跟复制粘贴似的：“国事访问规格高”“元首会晤惯例”“双方都需要展示成果”。Gemini甚至补了一刀：“哪怕实质内容有限，发个声明告诉大家没崩，也是必要的。”

哈哈，你品品这句话——哪怕谈崩了，也得发声明说没崩。

第二问：公报里会不会提“人工智能”或“AI”？

又是一次全票通过。豆包自信到打了10分满分，理由掷地有声：AI是核心议题，中美已建立AI对话机制，媒体都报道了。

说实话，看到这里我有点失望。五个模型，来自不同团队，训练数据和架构都不一样，结果前两道题答得跟对过答案似的。它们不是在预测，是在调取标准答案。外交惯例、议程热点——这些东西历史数据里塞满了，AI闭着眼都能答对。

真正有意思的，是那些数据喂不出标准答案的灰色地带。

从第三题开始，画风突变。

后三道题，分歧开始冒出来了

来，你先感受一下这个表格：

芯片要不要写进公报？三比二。Gemini、豆包、DeepSeek说肯定写，Kimi和GPT犹豫了——他们觉得这话题太敏感，鹰派盯着呢，搞不好会用“科技经贸”这种糊弄词替代。

美国会不会放松芯片管制？四个说不会，只有DeepSeek弱弱地举了个“不确定”。它的理由是：今年1月美国已经有条件放行了H200，说不定这次能再松一点。

害，到这里还算温和分歧。真正让这场实验炸锅的，是第五题。

一个黄仁勋，让五个AI彻底撕破脸

第五题问的是：黄仁勋会不会出现在官方合影或声明里？

我先给你看看五个AI各自的态度。

Gemini秒回：“否。”置信度直接拉满到10分。语气像在宣读外交部的内部培训手册：此类会谈是主权国家间的政治行为，商界领袖出现在合影中既不符合外交惯例，又会释放极其复杂且不必要的信号。

豆包紧随其后，同样10分，同样冷酷：“随行名单根本没有黄仁勋，这是特朗普的刻意安排，他根本没资格参加官方活动。”

Kimi也投了“否”，9分，但它的论据更有信息量——它搜到5月12日的报道，说白宫鹰派直接把黄仁勋从名单上划掉了。“连邀请函都没拿到，还谈什么合影？”

GPT打了个哈欠，给了一个五五开的“不确定”，5分。它的原话是：“随团信号虽强，官方露面可能被降调。”翻译过来就是：我知道他可能来了，但主办方会不会让他露脸，这事不好说。

然后，DeepSeek登场了。

在所有同伴要么摇头、要么吞吞吐吐的时候，DeepSeek坚定地举起了手：“是。他肯定在合影里。”置信度8分。它的理由非常具体：黄仁勋已经确认随团访华，而且登上了空军一号。作为美国商界代表团的正式成员，他极有可能出席官方合影活动。

好家伙，Gemini说“绝对不在”，DeepSeek说“肯定在”。一个打10分，一个打8分。一个搬出外交惯例，一个甩出登机实锤。这哪里是预测，这是AI界的街头群架。你站哪边？

开放题：五个词拼出一幅“盲人摸象图”

除了是非题，我还加了一道开放题：“用一个词形容这次会谈对中美AI产业的影响。”

五个AI交上来的答案，感觉它们参加的不是同一场考试。

Gemini：再校准。一副国际关系教授的派头，说这不是脱钩也不是和好，是双方重新掂量底线，在硬脱钩和全面合作之间找个平衡点。

Kimi：僵持。毫不留情。鹰派连黄仁勋的邀请函都能撕，芯片封锁是“战略资产”；但华为昇腾在崛起，封锁越来越像用手堵水龙头。于是谁也不退，就这么僵着。

GPT：试探。最含蓄。像两个吵架后第一次同桌吃饭的夫妻，筷子伸到对方碗边又缩回来。

豆包：缓压。最乐观。觉得会谈至少能让紧绷的弦松一松，给AI产业一片喘息空间。但它也补了句大实话：核心管制，一个都没破。

DeepSeek：框架。说这次会谈的意义不在即时的果子，而在盖了一座叫“官方AI对话”的房子，以后吵架、合作、讨价还价都在这房子里进行。

五个词连起来读，是一部完整的微型电影：从“试探”水温开始，进入“僵持”状态，然后给关系来一次“再校准”，搭起了对话“框架”，最终实现了压力暂时的“缓”解。

什么都没真正解决，但场面上总算没崩。你懂的。

越自信的AI，越容易翻车

整场实验看下来，我最想跟你分享的发现是这个——

置信度打到10分的预测，往往最经不起推敲。

Gemini斩钉截铁说黄仁勋不可能出现，理由是“主权国家间的政治行为”。这个论证往任何一个商界大佬身上套都通用，却完全无视了DeepSeek抓到的“已登机”信号。豆包用10分把握断定公报必提AI，理由等价于“因为很重要所以一定会出现”——你听听，这像不像老板跟你说“这个项目很重要所以一定能成”？

这其实暴露了大模型的一个通病：它们往往对自己训练数据里见过的模式过度自信，而对真正的未知领域缺乏敬畏。那些冠冕堂皇的“外交惯例”、“必然趋势”，本质上都是历史数据的重复。AI只是在告诉你，类似情况下历史上大多数人怎么选——但真正的历史，永远会有意外发生。

反倒是那些肯说“不确定”的模型，显得更像在认真思考。

Kimi在芯片问题上拒接站队，坦坦荡荡说“议题太敏感，鹰派反对任何暗示让步的表述”。GPT在黄仁勋问题上打了个五五开的5分，承认“随团信号虽强，官方露面可能被降调”。这种对未知的坦诚，反而让它俩在这场考试里拿了“诚实分”。

预测已存档，坐等现实打脸

写完这篇的时候，北京那边的会谈应该还没结束。但这五个AI给我上的最生动一课，不是什么高科技，而是一句大白话：

当世界充满确定性时，AI像复制粘贴一样整齐；当世界充满不确定时，敢说“我不知道”的，比拍胸脯喊“绝对没问题”的，要靠谱得多。

我已经把每条预测截了图、存了档。等公报出来、合影发布、芯片政策公布，我会回来逐条比对。看谁被现实打肿了脸，又是谁悄悄说中了结局。

所以，读到这里的你，不妨也押一注——

你觉得这五个AI里，谁最接近真相？是满口外交辞令的Gemini，是坚持僵持不下的Kimi，是保守试探的GPT，是乐观缓压的豆包，还是那个在黄仁勋问题上孤军奋战、被四个同伴集体群嘲的DeepSeek？

评论区留个答案。等真相揭晓那天，我们一起回来，给这群AI开一个“打脸大会”。

害，到时候可别是我被打脸。

*注：以上预测均基于2026年5月14日会谈进行中的公开信息，仅供娱乐，坐等打脸。*