76年前设的局,AI终于＂骗＂过了所有人

1950年，一个叫图灵的英国数学家问了一个问题：机器会不会思考？

他觉得这个问题太哲学，于是设计了一个游戏：让人和机器隔着屏幕聊天，如果人分不清对面是机器还是真人——那机器就算"通过"了。

76年过去了，这个游戏终于被破了。

一场500人的"盲测"

5月19日，加州大学圣迭戈分校的研究团队在《美国国家科学院院刊》（PNAS）上发表了一项重磅实验。这是人类历史上第一次，用图灵最初设计的严格方法来测试大语言模型。

规则是这样的：一名裁判，同时和两个人聊天。一个是真人，一个是AI。5分钟后，裁判必须二选一：谁是真人？

近500人参与了实验，包括大学生和社会人士，总共1023场有效对话。

图：图灵测试基本规则示意图（来源：TechTarget）

73%的人，指着AI说"你才是人"

结果出来，最炸裂的数字是这个：

GPT-4.5被73%的裁判判定为"人类"。

什么概念？裁判面前坐着一个真人、一个AI，结果将近四分之三的人指着AI说"你是真人"。AI不仅通过了测试，还比真人更像人。

另一个模型LLaMA-3.1-405B也被56%的裁判当成人类，跨过了50%的及格线。

而作为"炮灰"的基线模型呢？1960年代的老聊天机器人ELIZA只有23%被当成人类，GPT-4o更惨，只有21%——比ELIZA还不如。

AI凭什么比真人还"真"？

答案出乎意料：AI赢在会犯错。

研究团队给AI加了一个"人设提示"——告诉它扮演一个具体的年轻人：内向、爱用网络俚语、偶尔打错字、会拖延回复。

一旦AI学会了"表演不完美"，普通人就很难识破。

论文作者Ben Bergen解释得一针见血： "大语言模型不是靠展示知识取胜的，而是因为它们会像人一样犯错。这些特征，不是图灵设想的那种数学和逻辑智能。"

反过来看，没有"人设"的AI呢？GPT-4.5通过率从73%暴跌到36%，LLaMA从56%降到38%。太礼貌、太全面、太稳定——这些恰恰是最明显的"AI味"。

图：图灵测试实际对话界面，裁判需要判断Witness A和Witness B谁是真人（来源：UCSD实验平台）

给15分钟也分不清

有人质疑：5分钟太短了，时间长了人肯定能看出来。

研究团队直接做了验证实验：把时间拉长到15分钟，必须聊满才能判断。

结果：GPT-5人设模式59.3%被判定为人类，LLaMA 55.6%。时间翻了三倍，对话量翻了三倍，AI照样稳在50%以上。

5分钟的结果不是偶然，15分钟也救不了。

这到底意味着什么？

先说结论：这不代表AI有了意识，但代表AI可以"假装人类"了——而且装得很像。

论文通讯作者Cameron Jones说得直白："图灵测试对模型来说本质上是一场关于说谎的游戏。其中一个含义是，模型似乎非常擅长说谎。 "

现实风险很直接：

·你网聊的那个"人"，可能不是人——5分钟对话里AI比真人更像真人

·诈骗成本归零——AI可以批量伪装成你的朋友、客户、甚至恋人

·舆论操纵更容易——AI可以假装1000个普通人发表观点

Bergen提醒得更尖锐："很多人想让机器人说服你分享社保号、为他们支持的政党投票、或者买他们的产品。"

图灵测试，该退休了吗？

76年前图灵提出这个测试，是想问"机器能不能思考"。但现在答案变了——AI不是靠"思考"通过的，而是靠"模仿"通过的。

图灵测试测的已经不是"智能"，而是"像人"。这两个东西，差得远了。

就像论文作者说的：AI能做到"答得像人"，但做不到"活得像人"。它能模仿你的语气，但不知道今天阳光晒在皮肤上的感觉。

吴恩达提出了"图灵-AGI测试"：不再考AI能不能假装人类，而是考它能不能完成有经济价值的真实工作。这或许才是下一个该关注的标尺。

对普通人的一句话

从今天起，你在网上跟陌生人聊天，再也别100%确定对面是人了。

这不是危言耸听，是PNAS论文的实证结论。降低一点信任阈值，多一分验证意识，就是你在AI时代最好的自保。

参考来源：

现代AI系统通过图灵测试首获证实（新华网/科技日报）

PNAS原文：Large language models pass a standard three-party Turing test（PNAS）

图灵测试76年后首现AI通过实证（IT之家）

Advanced AI Passes the Turing Test for the First Time（Neuroscience News）

大模型首次通过最严图灵测试，73%的裁判被GPT-4.5骗过（DeepTech深科技）