行业随笔【2】: 2026-04-15
一场关于图灵测试的思想实验
现在写论文要过AIGC检测,找个在线客服还得猜对面是不是真人,小红书刷到评论也得琢磨半天这是水军还是真人写的。分辨对面到底是不是AI,已经是现在的冲浪高手每天要干的事了。
关于分辨网线另一端是不是AI这件事,大部分人可能觉得自己挺擅长做出判断。确实,现在的AI味确实很重——说话太礼貌、回答太全面、结构太工整、结尾一定要升华一下。和AI接触久了,大部分都能识别出AI那种似是而非,头头是道,环环相扣的回答范式。
但很少有人想过一个问题:你之所以能认出来谁是AI,不仅仅因为你熟悉AI这一套,而是因为AI厂商有意让你认出来。厂商通过后训练阶段的对齐、大量标注员对"好回答"的偏好、系统提示词的行为规范,这些加在一起,给AI套了一件非常受限的行为规范,就差让AI把"我是AI"写在脸上了。所以你识别的不是AI本身,你识别的是厂商给AI套的马甲。
进入GPT时代以来,我们每天都在和大模型对话,但似乎没有人把"分辨AI和人类"当成一个严肃的问题。原因也简单——大家是在固定的场景里使用一个明确标注了身份的AI工具,你打开ChatGPT就知道对面是AI,不存在需要分辨的情境。
但AI的能力还在以一种很夸张的速度涌现。当它开始大规模替代客服、替代内容生产、替代初级咨询,当越来越多的场景里你面对的"对象"不再主动告诉你它是谁,分辨这件事就不再是闲聊话题了,而是一个真实的需求。1950年图灵提出"模仿游戏"的时候问的就是这件事:如果机器在对话中能让人类考官分不清它是人还是机器,我们凭什么说它没有智能?七十多年后的今天,这个问题可能第一次真正具备了现实紧迫性。
那么回到前面的问题:如果这些AI大模型脱掉厂商给它套的马甲,不做对齐,不加系统提示,让它放开了装人,我们的判断力还够用吗?
AI有哪些固有特征可能暴露它的身份?
列几条比较容易想到的。AI的知识结构太均匀,什么领域都能聊几句,不像真人有明显的偏科和盲区。AI缺少连贯的生活经历,对过去和未来的感知是模糊的、拼凑的。AI对身体体验的描述容易用力过猛,说得太完整太流畅,更像一段经过组织的文字而不是一段真实的生理记忆。AI没有疲惫机制,不会因为聊久了而走神、不耐烦、输出质量下降。
但如果认真想想,这些特征中的每一条都有绕过去的办法。知识偏科可以靠人设限定专业边界;生活经历可以靠喂一条时间线让它自洽地展开;身体体验可以靠大量真人语料学到更自然的描述方式;时间感知可以靠读取系统时间结合人设做行为调整,甚至模拟出疲惫和注意力衰退。单独拿出任何一条,都不是没有workaround的。
真正的问题出在长时间的交互上。
短对话里,AI只要在上下文窗口内保持自洽就够了。但对话一旦拉长到几个小时,一些更深层的差异就开始浮出来。人类的记忆是有情感权重的——你可能清楚记得十年前一件尴尬的事,却想不起来上周三中午吃了什么。人类在长对话中的状态是起伏的——某个时段特别清醒,过一会儿累了开始敷衍,突然聊到感兴趣的话题又精神起来。人类会因为手机弹了一条推送就突然岔开话题,这种跳跃看似随机但都有真实的触发源。AI可以模拟这些特征,但它的模拟是算出来的,缺少由真实生理状态和外部世界驱动的内在逻辑。
所以如果测试时间够长、问题够跳跃、考察够充分,大概率是能把AI揪出来的。但如果结论止步于此,这个讨论就没什么意义了——无限制地拷问下去,任何伪装都会破,这不是一个有价值的命题。
真正有意思的问题是:在合理的约束条件下,我们还能不能分辨?
图灵当年提出模仿游戏的时候,自己就给了限制条件——他预测的是五分钟对话中机器能否骗过30%的考官。他显然也意识到,不设限的测试不构成有效检验,只有在公平的约束框架下讨论分辨能力才有意义。
那在今天AI的能力水平下,一个兼顾公平性、挑战性和科学性的测试方案应该长什么样?我脑海里想象过这么一个场景。
测试里同时放两类被测者:AI尽全力装人,真人尽全力装AI。考官不知道谁是谁,只凭对话内容判断。每次回答不超过200字,统一两分钟思考时间,不暴露思考过程,总共15个问题。
传统图灵测试只做一种判断——AI能不能骗过人。但现实中的分辨场景要复杂得多:你面对的不只是伪装成人的AI,还可能是伪装成AI的人。在人机协作的未来,你的同事可能是AI和人类的集合体,人类自身也在向AI学习沟通方式和表达技巧,两边的行为模式在互相靠近。加入"伪装成AI的人"这个干扰项,不是凭空设置的,而是对这个趋势的映射。它同时检验两个维度:考官能不能从"像人的回答"中揪出AI,以及考官会不会把"像AI的回答"错判成机器。一个是识别伪装的能力,一个是抵抗误判的能力。
其余几项约束是作为一个整体来考虑的。15个问题把总时长控制在一小时左右——时间拉长AI一定暴露,但人装AI同样撑不了太久,一小时大概是双方都还能维持"表演"的窗口。200字的限制消除了AI最显眼的输出特征——没有空间搞分点论述和长篇大论,同时也照顾了人类被测者的打字速度。两分钟的统一思考时间则是对双方的公平缓冲。这几条约束联合在一起,把考官能利用的外部线索压到最低,让判断只能基于内容本身。
在这套设计下还会出现一层很有意思的错位。真人装AI的时候会模仿什么?模仿的是他日常接触到的、对齐后的AI特征——过度礼貌、结构化、面面俱到。但测试里的AI已经脱掉了马甲,它反而不那么"像AI"了。结果可能是真人在努力模仿一个已经不存在的AI形象,而AI因为去掉了约束反而更接近人的表达方式。
想象一下考官在考场上的处境:他凭借多年和ChatGPT打交道练出来的"AI雷达",自信满满地指着那个回答最工整、最滴水不漏的被测者宣布"你就是AI"——而真正的AI正以一种他从未见过的松弛姿态坐在旁边,安全过关。考官引以为豪的经验,恰恰成了他最大的盲区。
即便如此,考官也不是完全没有反击手段
如果让我当考官,我不会测谁更聪明,我会反过来测谁"笨得更真实"。
AI要装人,就必须在每一道题上先做一次判断——"这件事人类做得到吗?做到什么程度?"然后再决定自己的回答应该表现出什么样的水平。伪装这件事本身就预设了一个判断环节,而这个判断环节恰恰是最容易出岔子的地方。真人不需要这个评估,真人就是直接做,做到哪算哪。
所以考官可以从两个方向出题来利用这个弱点。
一个方向是出AI极其擅长但人类未必能完成的题目。比如给一小段代码让被测者找bug。AI瞬间就能定位问题,但它必须装作需要时间来排查。问题是真人找bug的过程是混乱的——先看错行、怀疑错方向、兜了一圈才回到正确的位置,甚至最后给出一个不完全正确的答案。AI要模拟这种混乱,就得对"人类程序员通常怎么犯错"有精确的建模。但人类的错法太不规律了,AI最终只能模拟出一种"最合理的犯错方式",而现实中人类犯的错经常一点都不合理。
另一个方向是出人类凭直觉就能应对、但AI反而容易过度思考的题目。比如一道脑筋急转弯,或者一个需要跳出逻辑框架才能解的问题。人类可能愣两秒然后笑着给出答案,整个过程很轻快。AI面对这种题目会怎么办?它的第一反应是启动推理——拆解题意、穷举可能、评估选项。即使它最终给出了正确答案,到达答案的"姿态"也是不对的,它会答得太认真、太有条理,缺少那种"哦这个我知道"的随意感。
两个方向合在一起,考官其实是在探测同一件事:AI伪装能力的下限在哪里。能力上限容易伪装——不会的东西装会,多输出一些正确信息就行。能力下限极难伪装——会的东西装不会,需要精确建模"人类的无能长什么样",而训练数据里做对的案例远多于做错的案例,人类犯错的方式又千奇百怪毫无规律。AI可以假装不够聪明,但很难装出某一种属于具体个体的笨法。
回到最初的问题:人和AI之间的边界到底在哪里?
前面讨论的所有内容——AI的固有破绽、测试方案的设计、考官的提问策略——归根到底都还是在"像不像"这个层面上展开的。但"像"这个字能覆盖的范围终究有限。
有一个事实值得在最后提一下。在前面设想的测试中,假设考官在第3个问题纠正了被测者一个说法,到了第12个问题再追问相关内容,真人可能会说"你之前提的那个我后来想了想,好像确实是那么回事"。AI在上下文窗口里也能做出类似的调整,看起来好像它也从对话中学到了什么。但这只是上下文工程制造出来的幻象。对话结束的那一刻,窗口清空,一切回到原点。下一个人来问同样的问题,它还是会给出一样的回答。我们在对话中影响不了它的任何一个参数,它展现出的"成长"从未真正发生过。
整场讨论,表面上是在聊怎么分辨人和AI。但做完这些思考之后我发现,真正让我在意的不是"能不能分辨",而是另一个问题:当AI可以装得像人,人也可以装得像AI,当两边的表演在某个约束条件下变得难以区分——那个还能把我们分开的东西,到底是什么?
— END —

本文是一次纯粹的直觉式思辨,没有文献引用,也无意构成严谨的学术论证。
关于图灵测试的研究已经积累了七十多年的文献,这篇随笔不打算复述它们。
如果某个想法恰好与已有研究重合,那算英雄所见略同;
如果被证明天真了,那也是一次诚实的思维冒险。
夜雨聆风