事情是这样的。2026年5月13日,特朗普的专机降落在北京。中美两国领导人要坐下来谈——谈中美贸易、谈国际安全、谈人工智能,最重要的,谈芯片。
坦白说,这种级别的新闻,我本来打算刷个热搜就完事。但突然脑子里冒出一个邪念:这些AI成天标榜自己逻辑严谨、信息全面,你让它预测一下明天会发生什么,它能靠谱吗?
说干就干。我把同一个问题甩给5个主流AI模型——Gemini 2.5 Pro、Kimi K2.6、GPT-5.5、Doubao-Seed-2.0-Pro和DeepSeek-V4-Flash,让它们对5个核心悬念做出“是/否/不确定”的判断,还得附上置信度和理由。
结果怎么说呢——它们在我屏幕上当场打起来了。但不是在所有问题上都打。
前两道题,五个AI穿一条裤子
先说最无聊的发现——无聊到让我差点关掉电脑。
第一问:会谈结束,会不会发联合公报或声明?
Gemini、Kimi、GPT、豆包、DeepSeek,齐刷刷说“是”。置信度从7分到9分,没有一个犹豫的。
理由跟复制粘贴似的:“国事访问规格高”“元首会晤惯例”“双方都需要展示成果”。Gemini甚至补了一刀:“哪怕实质内容有限,发个声明告诉大家没崩,也是必要的。”
哈哈,你品品这句话——哪怕谈崩了,也得发声明说没崩。
第二问:公报里会不会提“人工智能”或“AI”?
又是一次全票通过。豆包自信到打了10分满分,理由掷地有声:AI是核心议题,中美已建立AI对话机制,媒体都报道了。
说实话,看到这里我有点失望。五个模型,来自不同团队,训练数据和架构都不一样,结果前两道题答得跟对过答案似的。它们不是在预测,是在调取标准答案。外交惯例、议程热点——这些东西历史数据里塞满了,AI闭着眼都能答对。
真正有意思的,是那些数据喂不出标准答案的灰色地带。
从第三题开始,画风突变。
后三道题,分歧开始冒出来了
来,你先感受一下这个表格:

芯片要不要写进公报?三比二。Gemini、豆包、DeepSeek说肯定写,Kimi和GPT犹豫了——他们觉得这话题太敏感,鹰派盯着呢,搞不好会用“科技经贸”这种糊弄词替代。
美国会不会放松芯片管制?四个说不会,只有DeepSeek弱弱地举了个“不确定”。它的理由是:今年1月美国已经有条件放行了H200,说不定这次能再松一点。
害,到这里还算温和分歧。真正让这场实验炸锅的,是第五题。
一个黄仁勋,让五个AI彻底撕破脸
第五题问的是:黄仁勋会不会出现在官方合影或声明里?
我先给你看看五个AI各自的态度。
Gemini秒回:“否。”置信度直接拉满到10分。语气像在宣读外交部的内部培训手册:此类会谈是主权国家间的政治行为,商界领袖出现在合影中既不符合外交惯例,又会释放极其复杂且不必要的信号。
豆包紧随其后,同样10分,同样冷酷:“随行名单根本没有黄仁勋,这是特朗普的刻意安排,他根本没资格参加官方活动。”
Kimi也投了“否”,9分,但它的论据更有信息量——它搜到5月12日的报道,说白宫鹰派直接把黄仁勋从名单上划掉了。“连邀请函都没拿到,还谈什么合影?”
GPT打了个哈欠,给了一个五五开的“不确定”,5分。它的原话是:“随团信号虽强,官方露面可能被降调。”翻译过来就是:我知道他可能来了,但主办方会不会让他露脸,这事不好说。
然后,DeepSeek登场了。
在所有同伴要么摇头、要么吞吞吐吐的时候,DeepSeek坚定地举起了手:“是。他肯定在合影里。”置信度8分。它的理由非常具体:黄仁勋已经确认随团访华,而且登上了空军一号。作为美国商界代表团的正式成员,他极有可能出席官方合影活动。
好家伙,Gemini说“绝对不在”,DeepSeek说“肯定在”。一个打10分,一个打8分。一个搬出外交惯例,一个甩出登机实锤。这哪里是预测,这是AI界的街头群架。你站哪边?
开放题:五个词拼出一幅“盲人摸象图”
除了是非题,我还加了一道开放题:“用一个词形容这次会谈对中美AI产业的影响。”
五个AI交上来的答案,感觉它们参加的不是同一场考试。
Gemini:再校准。一副国际关系教授的派头,说这不是脱钩也不是和好,是双方重新掂量底线,在硬脱钩和全面合作之间找个平衡点。
Kimi:僵持。毫不留情。鹰派连黄仁勋的邀请函都能撕,芯片封锁是“战略资产”;但华为昇腾在崛起,封锁越来越像用手堵水龙头。于是谁也不退,就这么僵着。
GPT:试探。最含蓄。像两个吵架后第一次同桌吃饭的夫妻,筷子伸到对方碗边又缩回来。
豆包:缓压。最乐观。觉得会谈至少能让紧绷的弦松一松,给AI产业一片喘息空间。但它也补了句大实话:核心管制,一个都没破。
DeepSeek:框架。说这次会谈的意义不在即时的果子,而在盖了一座叫“官方AI对话”的房子,以后吵架、合作、讨价还价都在这房子里进行。
五个词连起来读,是一部完整的微型电影:从“试探”水温开始,进入“僵持”状态,然后给关系来一次“再校准”,搭起了对话“框架”,最终实现了压力暂时的“缓”解。
什么都没真正解决,但场面上总算没崩。你懂的。
越自信的AI,越容易翻车
整场实验看下来,我最想跟你分享的发现是这个——
置信度打到10分的预测,往往最经不起推敲。
Gemini斩钉截铁说黄仁勋不可能出现,理由是“主权国家间的政治行为”。这个论证往任何一个商界大佬身上套都通用,却完全无视了DeepSeek抓到的“已登机”信号。豆包用10分把握断定公报必提AI,理由等价于“因为很重要所以一定会出现”——你听听,这像不像老板跟你说“这个项目很重要所以一定能成”?
这其实暴露了大模型的一个通病:它们往往对自己训练数据里见过的模式过度自信,而对真正的未知领域缺乏敬畏。那些冠冕堂皇的“外交惯例”、“必然趋势”,本质上都是历史数据的重复。AI只是在告诉你,类似情况下历史上大多数人怎么选——但真正的历史,永远会有意外发生。
反倒是那些肯说“不确定”的模型,显得更像在认真思考。
Kimi在芯片问题上拒接站队,坦坦荡荡说“议题太敏感,鹰派反对任何暗示让步的表述”。GPT在黄仁勋问题上打了个五五开的5分,承认“随团信号虽强,官方露面可能被降调”。这种对未知的坦诚,反而让它俩在这场考试里拿了“诚实分”。
预测已存档,坐等现实打脸
写完这篇的时候,北京那边的会谈应该还没结束。但这五个AI给我上的最生动一课,不是什么高科技,而是一句大白话:
当世界充满确定性时,AI像复制粘贴一样整齐;当世界充满不确定时,敢说“我不知道”的,比拍胸脯喊“绝对没问题”的,要靠谱得多。
我已经把每条预测截了图、存了档。等公报出来、合影发布、芯片政策公布,我会回来逐条比对。看谁被现实打肿了脸,又是谁悄悄说中了结局。
所以,读到这里的你,不妨也押一注——
你觉得这五个AI里,谁最接近真相?是满口外交辞令的Gemini,是坚持僵持不下的Kimi,是保守试探的GPT,是乐观缓压的豆包,还是那个在黄仁勋问题上孤军奋战、被四个同伴集体群嘲的DeepSeek?
评论区留个答案。等真相揭晓那天,我们一起回来,给这群AI开一个“打脸大会”。
害,到时候可别是我被打脸。
*注:以上预测均基于2026年5月14日会谈进行中的公开信息,仅供娱乐,坐等打脸。*
夜雨聆风