如果AI在装人、人在装AI,你还分得清吗?

行业随笔【2】： 2026-04-15

一场关于图灵测试的思想实验

现在写论文要过AIGC检测，找个在线客服还得猜对面是不是真人，小红书刷到评论也得琢磨半天这是水军还是真人写的。分辨对面到底是不是AI，已经是现在的冲浪高手每天要干的事了。

关于分辨网线另一端是不是AI这件事，大部分人可能觉得自己挺擅长做出判断。确实，现在的AI味确实很重——说话太礼貌、回答太全面、结构太工整、结尾一定要升华一下。和AI接触久了，大部分都能识别出AI那种似是而非，头头是道，环环相扣的回答范式。

但很少有人想过一个问题：你之所以能认出来谁是AI，不仅仅因为你熟悉AI这一套，而是因为AI厂商有意让你认出来。厂商通过后训练阶段的对齐、大量标注员对"好回答"的偏好、系统提示词的行为规范，这些加在一起，给AI套了一件非常受限的行为规范，就差让AI把"我是AI"写在脸上了。所以你识别的不是AI本身，你识别的是厂商给AI套的马甲。

进入GPT时代以来，我们每天都在和大模型对话，但似乎没有人把"分辨AI和人类"当成一个严肃的问题。原因也简单——大家是在固定的场景里使用一个明确标注了身份的AI工具，你打开ChatGPT就知道对面是AI，不存在需要分辨的情境。

但AI的能力还在以一种很夸张的速度涌现。当它开始大规模替代客服、替代内容生产、替代初级咨询，当越来越多的场景里你面对的"对象"不再主动告诉你它是谁，分辨这件事就不再是闲聊话题了，而是一个真实的需求。1950年图灵提出"模仿游戏"的时候问的就是这件事：如果机器在对话中能让人类考官分不清它是人还是机器，我们凭什么说它没有智能？七十多年后的今天，这个问题可能第一次真正具备了现实紧迫性。

那么回到前面的问题：如果这些AI大模型脱掉厂商给它套的马甲，不做对齐，不加系统提示，让它放开了装人，我们的判断力还够用吗？

AI有哪些固有特征可能暴露它的身份？

列几条比较容易想到的。AI的知识结构太均匀，什么领域都能聊几句，不像真人有明显的偏科和盲区。AI缺少连贯的生活经历，对过去和未来的感知是模糊的、拼凑的。AI对身体体验的描述容易用力过猛，说得太完整太流畅，更像一段经过组织的文字而不是一段真实的生理记忆。AI没有疲惫机制，不会因为聊久了而走神、不耐烦、输出质量下降。

但如果认真想想，这些特征中的每一条都有绕过去的办法。知识偏科可以靠人设限定专业边界；生活经历可以靠喂一条时间线让它自洽地展开；身体体验可以靠大量真人语料学到更自然的描述方式；时间感知可以靠读取系统时间结合人设做行为调整，甚至模拟出疲惫和注意力衰退。单独拿出任何一条，都不是没有workaround的。

真正的问题出在长时间的交互上。

短对话里，AI只要在上下文窗口内保持自洽就够了。但对话一旦拉长到几个小时，一些更深层的差异就开始浮出来。人类的记忆是有情感权重的——你可能清楚记得十年前一件尴尬的事，却想不起来上周三中午吃了什么。人类在长对话中的状态是起伏的——某个时段特别清醒，过一会儿累了开始敷衍，突然聊到感兴趣的话题又精神起来。人类会因为手机弹了一条推送就突然岔开话题，这种跳跃看似随机但都有真实的触发源。AI可以模拟这些特征，但它的模拟是算出来的，缺少由真实生理状态和外部世界驱动的内在逻辑。

所以如果测试时间够长、问题够跳跃、考察够充分，大概率是能把AI揪出来的。但如果结论止步于此，这个讨论就没什么意义了——无限制地拷问下去，任何伪装都会破，这不是一个有价值的命题。

真正有意思的问题是：在合理的约束条件下，我们还能不能分辨？

图灵当年提出模仿游戏的时候，自己就给了限制条件——他预测的是五分钟对话中机器能否骗过30%的考官。他显然也意识到，不设限的测试不构成有效检验，只有在公平的约束框架下讨论分辨能力才有意义。

那在今天AI的能力水平下，一个兼顾公平性、挑战性和科学性的测试方案应该长什么样？我脑海里想象过这么一个场景。

测试里同时放两类被测者：AI尽全力装人，真人尽全力装AI。考官不知道谁是谁，只凭对话内容判断。每次回答不超过200字，统一两分钟思考时间，不暴露思考过程，总共15个问题。

传统图灵测试只做一种判断——AI能不能骗过人。但现实中的分辨场景要复杂得多：你面对的不只是伪装成人的AI，还可能是伪装成AI的人。在人机协作的未来，你的同事可能是AI和人类的集合体，人类自身也在向AI学习沟通方式和表达技巧，两边的行为模式在互相靠近。加入"伪装成AI的人"这个干扰项，不是凭空设置的，而是对这个趋势的映射。它同时检验两个维度：考官能不能从"像人的回答"中揪出AI，以及考官会不会把"像AI的回答"错判成机器。一个是识别伪装的能力，一个是抵抗误判的能力。

其余几项约束是作为一个整体来考虑的。15个问题把总时长控制在一小时左右——时间拉长AI一定暴露，但人装AI同样撑不了太久，一小时大概是双方都还能维持"表演"的窗口。200字的限制消除了AI最显眼的输出特征——没有空间搞分点论述和长篇大论，同时也照顾了人类被测者的打字速度。两分钟的统一思考时间则是对双方的公平缓冲。这几条约束联合在一起，把考官能利用的外部线索压到最低，让判断只能基于内容本身。

在这套设计下还会出现一层很有意思的错位。真人装AI的时候会模仿什么？模仿的是他日常接触到的、对齐后的AI特征——过度礼貌、结构化、面面俱到。但测试里的AI已经脱掉了马甲，它反而不那么"像AI"了。结果可能是真人在努力模仿一个已经不存在的AI形象，而AI因为去掉了约束反而更接近人的表达方式。

想象一下考官在考场上的处境：他凭借多年和ChatGPT打交道练出来的"AI雷达"，自信满满地指着那个回答最工整、最滴水不漏的被测者宣布"你就是AI"——而真正的AI正以一种他从未见过的松弛姿态坐在旁边，安全过关。考官引以为豪的经验，恰恰成了他最大的盲区。

即便如此，考官也不是完全没有反击手段

如果让我当考官，我不会测谁更聪明，我会反过来测谁"笨得更真实"。

AI要装人，就必须在每一道题上先做一次判断——"这件事人类做得到吗？做到什么程度？"然后再决定自己的回答应该表现出什么样的水平。伪装这件事本身就预设了一个判断环节，而这个判断环节恰恰是最容易出岔子的地方。真人不需要这个评估，真人就是直接做，做到哪算哪。

所以考官可以从两个方向出题来利用这个弱点。

一个方向是出AI极其擅长但人类未必能完成的题目。比如给一小段代码让被测者找bug。AI瞬间就能定位问题，但它必须装作需要时间来排查。问题是真人找bug的过程是混乱的——先看错行、怀疑错方向、兜了一圈才回到正确的位置，甚至最后给出一个不完全正确的答案。AI要模拟这种混乱，就得对"人类程序员通常怎么犯错"有精确的建模。但人类的错法太不规律了，AI最终只能模拟出一种"最合理的犯错方式"，而现实中人类犯的错经常一点都不合理。

另一个方向是出人类凭直觉就能应对、但AI反而容易过度思考的题目。比如一道脑筋急转弯，或者一个需要跳出逻辑框架才能解的问题。人类可能愣两秒然后笑着给出答案，整个过程很轻快。AI面对这种题目会怎么办？它的第一反应是启动推理——拆解题意、穷举可能、评估选项。即使它最终给出了正确答案，到达答案的"姿态"也是不对的，它会答得太认真、太有条理，缺少那种"哦这个我知道"的随意感。

两个方向合在一起，考官其实是在探测同一件事：AI伪装能力的下限在哪里。能力上限容易伪装——不会的东西装会，多输出一些正确信息就行。能力下限极难伪装——会的东西装不会，需要精确建模"人类的无能长什么样"，而训练数据里做对的案例远多于做错的案例，人类犯错的方式又千奇百怪毫无规律。AI可以假装不够聪明，但很难装出某一种属于具体个体的笨法。

回到最初的问题：人和AI之间的边界到底在哪里？

前面讨论的所有内容——AI的固有破绽、测试方案的设计、考官的提问策略——归根到底都还是在"像不像"这个层面上展开的。但"像"这个字能覆盖的范围终究有限。

有一个事实值得在最后提一下。在前面设想的测试中，假设考官在第3个问题纠正了被测者一个说法，到了第12个问题再追问相关内容，真人可能会说"你之前提的那个我后来想了想，好像确实是那么回事"。AI在上下文窗口里也能做出类似的调整，看起来好像它也从对话中学到了什么。但这只是上下文工程制造出来的幻象。对话结束的那一刻，窗口清空，一切回到原点。下一个人来问同样的问题，它还是会给出一样的回答。我们在对话中影响不了它的任何一个参数，它展现出的"成长"从未真正发生过。

整场讨论，表面上是在聊怎么分辨人和AI。但做完这些思考之后我发现，真正让我在意的不是"能不能分辨"，而是另一个问题：当AI可以装得像人，人也可以装得像AI，当两边的表演在某个约束条件下变得难以区分——那个还能把我们分开的东西，到底是什么？

— END —

本文是一次纯粹的直觉式思辨，没有文献引用，也无意构成严谨的学术论证。

关于图灵测试的研究已经积累了七十多年的文献，这篇随笔不打算复述它们。

如果某个想法恰好与已有研究重合，那算英雄所见略同；

如果被证明天真了，那也是一次诚实的思维冒险。