AI通过图灵测试的真相:这根本不是智力测试,而是撒谎大赛

先给你看一个数字：73%。

这是GPT-4.5在一项严格的图灵测试中，被人类裁判误判为“真人”的概率。

你可能会想，天哪，AI已经聪明到连专家都分不出来了吗？

别急。我先给你泼盆冷水。

我用几个AI交叉验证了一下这篇论文，发现了一件很有意思的事：这根本不是智力测试。这是一场精心设计的 “撒谎大赛” ——而且AI的对手，手被绑住了。

73%是怎么来的？关键在于“人设”

美国加州大学圣地亚哥分校的研究人员，在2026年5月19日正式发表了这项研究。他们严格按照图灵1950年提出的经典框架来做：一名人类裁判通过纯文本聊天，同时跟一个真人和一个AI对话五分钟，然后判断谁才是人类。

总共做了1023场测试。裁判有本科生，也有网络用户。

结果很扎眼：GPT-4.5被赋予一个特定“人设”后，73%的裁判认为它是人。真人的被选中率反而更低。

但这里藏着一个关键操作。

研究人员给AI穿上了一套 “人设外衣” 。这套提示词把AI设定成：年轻、内向、熟悉网络文化、会用俚语、打字随意甚至有拼写错误、数学不太好、知识面不广、而且不刻意去说服对方。

翻译一下：让AI装成一个有点社恐、不爱显摆、偶尔打错字的普通网友。

效果立竿见影。

同一批测试里，如果不给GPT-4.5这套人设，它的胜率直接掉到 36%。

LLaMa-3.1-405B 也是一样：有人设时56%，跟真人表现没统计上的差别。脱掉人设，38%。

有个数据更说明问题。作为基线的 ELIZA ——1960年代的规则聊天机器人——胜率只有 23%。GPT-4o 更惨，21%。

你看，不是AI“进化”出了类人智力。是 “装傻”的策略 让它赢了。

有意思的是，研究人员还做了一轮延长到15分钟的测试。两个有“人设”的模型胜率分别降到56%和59%。时间一拉长，伪装就开始露馅。

⚠️ 真人基线在15分钟测试里的数据，论文没明确给出。这一块，暂时还找不到可靠数据。

论文里有一段分析让我印象很深。

人类裁判下判断，主要看的是 “说话的语气” 和 “社交情感因素”。不是知识储备，不是逻辑能力，不是数学题答得好不好。

说白了，大家判断对面是不是真人，凭的是 “感觉像不像在跟人聊天”。

琼斯——这项研究的第一作者，当时是加州大学圣地亚哥分校的博士生——直接把图灵测试称为一场 “关于撒谎的游戏”。

伯根教授也指出，AI在速度和准确率上早把人类甩在后面了。图灵测试量出来的，已经不是“智能”，而是 “像人的程度”。

这才是整件事最值得玩味的地方。

AI被明确要求去模仿人类，有详细的 “角色说明书”。而真人志愿者呢？只被告知 “做自己”，没给任何特殊指导。

这不叫公平对决。这叫AI拿着剧本上场，真人即兴表演。

部分学者已经指出，这类测试更接近于评估“欺骗能力”，而不是衡量智能。

论文作者自己也承认了。他们在讨论部分写得很清楚：结果只说明“当前AI系统能在短对话中有效模仿人类”，不等于人类水平的智能。

你先别急，我们来看真正该关心的东西。

有人在网上说 “AI已经通过图灵测试了，人类完了” 。这是典型的过度解读。73%这个数字，是在一个高度不对称的实验设计里拿到的。脱掉人设，连40%都不到。

更该警惕的是另一层：

AI不需要真的聪明，只要能让你相信它聪明、相信它是人，就足以产生影响。

你老家的表弟在网上跟一个“网友”聊了两个礼拜，对方语气随意、会开玩笑、偶尔打错字。他怎么分辨对面是不是一堆参数？他分辨不了。

这才是这项研究真正提醒我们的事。

核心一句话：AI赢了图灵测试，靠的不是变聪明，而是学会了装傻。

💡 今天的小动作：
下次你在网上跟一个陌生账号聊天时，留意一下对方的 “易错感”——打字小错误、自嘲数学不好、说自己不太懂某个话题。这些曾经让你放松警惕的信号，可能恰恰是被设计出来的。

📚 关于这项研究更详细的拆解，包括图灵测试的几种变体分别测什么、为什么15分钟是个分水岭，我整理在了《苏野的飞书知识库》里。需要的朋友，直接在评论区打“知识库”三个字，我看到后会把入口发你。

如果你也想每天花3分钟看清一件事的本质，可以点个关注，每天来看一眼我的日报。

🤔 今天想问问你：

如果有一天，你发现自己网上的某个“朋友”其实是AI，你最想用它解决什么问题——或者说，你最怕它被用来做什么？