AI刚通过了图灵测试,但过程比结果更有意思

1950年图灵提过一个很出名的测试。找一个人跟一台机器聊天，如果这个人聊完之后分不清对面是人是机器，那你就不能说这台机器不会思考。他把这个测试叫"模仿游戏"。

之后76年，没人能在严格的三方实验里把这个测试打穿。直到前几天加州大学圣迭戈分校在PNAS上发了篇论文。

将近500个人参与，每人同时跟一个人类和一个AI用文字聊天，5分钟后猜谁是人，一共聊了1023场。真人被成功识别的概率是50%，基本上等于猜硬币。GPT-4.5被判定为人的概率是73%。不是刚刚骗过，是骗得比真人还像真人。LLaMa-3.1也跨过了50%这条线，56%。把时间拉到15分钟再测一轮，GPT-5拿了59%。

到此为止只是一个很漂亮的实验记录。但论文里有一组对照数据，我反复看了好几遍。

研究者给AI写了一份角色说明塞进了系统指令，内容大概是这样的：你是一个不太会社交的年轻人，经常上网冲浪，懂各种梗，打字偶尔手滑，不用追求完美。就这几句。然后他们把实验拆成两组，一组有这份说明，一组没有。

有"人设"的那组，GPT-4.5被识别为人的概率73%。没有的那组，同一套模型，36%。

多了一段该怎么演的剧本，成绩翻了一倍。这个数字太直白了。它说明的不是AI有多像人，它说的是AI像人的那个"人味"，是从人手里递过去的。你给它剧本它就照着演，你不给它也不知道该怎么演。

论文作者在采访里说，图灵测试对模型来说就是个说谎测试，能通过说明模型在说谎这件事上已经练到家了。

我后来想图灵当年设计这个测试的时候，他想问的是"机器会不会思考"。但他设计的方法从头到尾测的都是"机器会不会骗人"。这两个东西有交集，但你没法画等号。一个会讲笑话、会嘴瓢、会在句子末尾加个狗头表情的AI，和一个真的觉得笑话好笑的AI，不是一个东西。图灵知道吗？可能知道。他1950年那篇论文里专门绕开了"什么是思考"这个问题，说咱们别争定义，直接测。搁在当时，这个务实主义很聪明。搁在76年后的今天回头看，它暴露了一个挺棘手的现实——你把定义绕过去了，但最后它还是会追上来。

图灵测试走到这一步，差不多把能考的考完了。不是AI不够强所以考不过，是AI太强了所以这张卷子已经没有区分度了。学术界目前在盯的一个替代方向叫ARC-AGI，跟图灵测试反着来。不考聊天，不看像不像人，就是给你几张图让你找规律。你背的语料帮不了你。在这个测试里，人类接近满分，最顶尖的AI不到1%。

同一个月里，AI在聊天测试里把人类甩开了，在推理测试里连人类的起跑线都没摸到。哪个数字更能解释什么叫"智能"，你心里大概有答案。

图灵如果在世，他应该会觉得这个局面挺讽刺的，但也不意外。他那篇1950年的论文结尾有句话大意是说：我们只能看到前面很短的距离，但我们可以看到那里有很多需要做的事情。76年后回头看，他说的是对的。测试过了，真正的问题才刚刚开始。

---

感谢你读到这里。如果喜欢这类深度科技内容，欢迎点个关注，公众号主页还有更多AI与科技互联网前沿文章。我们下期见。