AI刚通过了图灵测试,但过程比结果更有意思1950年图灵提过一个很出名的测试。找一个人跟一台机器聊天,如果这个人聊完之后分不清对面是人是机器,那你就不能说这台机器不会思考。他把这个测试叫"模仿游戏"。之后76年,没人能在严格的三方实验里把这个测试打穿。直到前几天加州大学圣迭戈分校在PNAS上发了篇论文。将近500个人参与,每人同时跟一个人类和一个AI用文字聊天,5分钟后猜谁是人,一共聊了1023场。真人被成功识别的概率是50%,基本上等于猜硬币。GPT-4.5被判定为人的概率是73%。不是刚刚骗过,是骗得比真人还像真人。LLaMa-3.1也跨过了50%这条线,56%。把时间拉到15分钟再测一轮,GPT-5拿了59%。到此为止只是一个很漂亮的实验记录。但论文里有一组对照数据,我反复看了好几遍。研究者给AI写了一份角色说明塞进了系统指令,内容大概是这样的:你是一个不太会社交的年轻人,经常上网冲浪,懂各种梗,打字偶尔手滑,不用追求完美。就这几句。然后他们把实验拆成两组,一组有这份说明,一组没有。有"人设"的那组,GPT-4.5被识别为人的概率73%。没有的那组,同一套模型,36%。多了一段该怎么演的剧本,成绩翻了一倍。这个数字太直白了。它说明的不是AI有多像人,它说的是AI像人的那个"人味",是从人手里递过去的。你给它剧本它就照着演,你不给它也不知道该怎么演。论文作者在采访里说,图灵测试对模型来说就是个说谎测试,能通过说明模型在说谎这件事上已经练到家了。我后来想图灵当年设计这个测试的时候,他想问的是"机器会不会思考"。但他设计的方法从头到尾测的都是"机器会不会骗人"。这两个东西有交集,但你没法画等号。一个会讲笑话、会嘴瓢、会在句子末尾加个狗头表情的AI,和一个真的觉得笑话好笑的AI,不是一个东西。图灵知道吗?可能知道。他1950年那篇论文里专门绕开了"什么是思考"这个问题,说咱们别争定义,直接测。搁在当时,这个务实主义很聪明。搁在76年后的今天回头看,它暴露了一个挺棘手的现实——你把定义绕过去了,但最后它还是会追上来。图灵测试走到这一步,差不多把能考的考完了。不是AI不够强所以考不过,是AI太强了所以这张卷子已经没有区分度了。学术界目前在盯的一个替代方向叫ARC-AGI,跟图灵测试反着来。不考聊天,不看像不像人,就是给你几张图让你找规律。你背的语料帮不了你。在这个测试里,人类接近满分,最顶尖的AI不到1%。同一个月里,AI在聊天测试里把人类甩开了,在推理测试里连人类的起跑线都没摸到。哪个数字更能解释什么叫"智能",你心里大概有答案。图灵如果在世,他应该会觉得这个局面挺讽刺的,但也不意外。他那篇1950年的论文结尾有句话大意是说:我们只能看到前面很短的距离,但我们可以看到那里有很多需要做的事情。76年后回头看,他说的是对的。测试过了,真正的问题才刚刚开始。感谢你读到这里。如果喜欢这类深度科技内容,欢迎点个关注,公众号主页还有更多AI与科技互联网前沿文章。我们下期见。