
先给你看一个数字:73%。
这是GPT-4.5在一项严格的图灵测试中,被人类裁判误判为“真人”的概率。
你可能会想,天哪,AI已经聪明到连专家都分不出来了吗?
别急。我先给你泼盆冷水。
我用几个AI交叉验证了一下这篇论文,发现了一件很有意思的事:这根本不是智力测试。这是一场精心设计的 “撒谎大赛” ——而且AI的对手,手被绑住了。
73%是怎么来的?关键在于“人设”
美国加州大学圣地亚哥分校的研究人员,在2026年5月19日正式发表了这项研究。他们严格按照图灵1950年提出的经典框架来做:一名人类裁判通过纯文本聊天,同时跟一个真人和一个AI对话五分钟,然后判断谁才是人类。
总共做了1023场测试。裁判有本科生,也有网络用户。
结果很扎眼:GPT-4.5被赋予一个特定“人设”后,73%的裁判认为它是人。真人的被选中率反而更低。
但这里藏着一个关键操作。
研究人员给AI穿上了一套 “人设外衣” 。这套提示词把AI设定成:年轻、内向、熟悉网络文化、会用俚语、打字随意甚至有拼写错误、数学不太好、知识面不广、而且不刻意去说服对方。

翻译一下:让AI装成一个有点社恐、不爱显摆、偶尔打错字的普通网友。
效果立竿见影。
脱掉外衣会怎样?
同一批测试里,如果不给GPT-4.5这套人设,它的胜率直接掉到 36%。
LLaMa-3.1-405B 也是一样:有人设时56%,跟真人表现没统计上的差别。脱掉人设,38%。
有个数据更说明问题。作为基线的 ELIZA ——1960年代的规则聊天机器人——胜率只有 23%。GPT-4o 更惨,21%。

你看,不是AI“进化”出了类人智力。是 “装傻”的策略 让它赢了。
有意思的是,研究人员还做了一轮延长到15分钟的测试。两个有“人设”的模型胜率分别降到56%和59%。时间一拉长,伪装就开始露馅。
⚠️ 真人基线在15分钟测试里的数据,论文没明确给出。这一块,暂时还找不到可靠数据。
裁判在依据什么做判断?
论文里有一段分析让我印象很深。
人类裁判下判断,主要看的是 “说话的语气” 和 “社交情感因素”。不是知识储备,不是逻辑能力,不是数学题答得好不好。
说白了,大家判断对面是不是真人,凭的是 “感觉像不像在跟人聊天”。
琼斯——这项研究的第一作者,当时是加州大学圣地亚哥分校的博士生——直接把图灵测试称为一场 “关于撒谎的游戏”。
伯根教授也指出,AI在速度和准确率上早把人类甩在后面了。图灵测试量出来的,已经不是“智能”,而是 “像人的程度”。

实验本身有个巨大的不对称
这才是整件事最值得玩味的地方。
AI被明确要求去模仿人类,有详细的 “角色说明书”。而真人志愿者呢?只被告知 “做自己”,没给任何特殊指导。
这不叫公平对决。这叫AI拿着剧本上场,真人即兴表演。
部分学者已经指出,这类测试更接近于评估“欺骗能力”,而不是衡量智能。
论文作者自己也承认了。他们在讨论部分写得很清楚:结果只说明“当前AI系统能在短对话中有效模仿人类”,不等于人类水平的智能。

那这事儿跟普通人有什么关系?
你先别急,我们来看真正该关心的东西。
有人在网上说 “AI已经通过图灵测试了,人类完了” 。这是典型的过度解读。73%这个数字,是在一个高度不对称的实验设计里拿到的。脱掉人设,连40%都不到。
更该警惕的是另一层:
AI不需要真的聪明,只要能让你相信它聪明、相信它是人,就足以产生影响。
你老家的表弟在网上跟一个“网友”聊了两个礼拜,对方语气随意、会开玩笑、偶尔打错字。他怎么分辨对面是不是一堆参数?他分辨不了。

这才是这项研究真正提醒我们的事。
🗞️ 苏野的AI日报·今日划重点
核心一句话:AI赢了图灵测试,靠的不是变聪明,而是学会了装傻。
💡 今天的小动作:
下次你在网上跟一个陌生账号聊天时,留意一下对方的 “易错感”——打字小错误、自嘲数学不好、说自己不太懂某个话题。这些曾经让你放松警惕的信号,可能恰恰是被设计出来的。
📚 关于这项研究更详细的拆解,包括图灵测试的几种变体分别测什么、为什么15分钟是个分水岭,我整理在了《苏野的飞书知识库》里。需要的朋友,直接在评论区打“知识库”三个字,我看到后会把入口发你。
如果你也想每天花3分钟看清一件事的本质,可以点个关注,每天来看一眼我的日报。
🤔 今天想问问你:
如果有一天,你发现自己网上的某个“朋友”其实是AI,你最想用它解决什么问题——或者说,你最怕它被用来做什么?
夜雨聆风