76年,图灵测试第一次被AI真正通过了。
事情是这样的。
今天下午我在刷推特,看到一条新闻,整个人直接从椅子上弹了起来。
加州大学圣地亚哥分校的研究团队刚刚宣布,GPT-4.5在图灵测试中,被误认为人类的概率高达73%。
73%。
什么概念?真人的通过率都只有大概60%多。GPT-4.5比真人还像真人。
我盯着这个数字看了好久,一时间无语凝噎。
图灵测试这个东西,你可能听过。1950年图灵在那篇论文《计算机与智能》里提出的,说如果一台机器能在对话中骗过人类评委,让评委觉得它是真人,那就可以说它有智能。
76年了。
无数AI来挑战过,最早的ELIZA在60年代,后来的各种聊天机器人,再到GPT-3、GPT-4。都号称“接近通过”,但从来没有一个在严格的双盲测试里,真正超过真人。
现在GPT-4.5做到了。
而且不是险胜,是73%对真人63%,甩开了十个点。
你等等,这到底怎么测的?
我也好奇,赶紧翻了下论文细节。
这个测试不是那种“你好我是机器人请证明你不是”的弱智对话。是真人在线聊天,5到15分钟,评委完全不知道对面是谁。
除了GPT-4.5,还测了LLaMa-3.1-405B、GPT-4o,还有一个上古时代的ELIZA当对照组。
结果怎么着?
LLaMa-3.1-405B,56%,跟真人差不多。
GPT-4o,只有20%出头,比ELIZA好点但有限。
差距最大的是谁?你猜对了,GPT-4.5,73%。

而且研究者发现一个非常骚的事——**提示词至关重要**。
什么意思?就是同样的模型,你用不同的提示词告诉它“你要像一个真实的人类那样说话,带点幽默感,偶尔犹豫,偶尔打错字”。它就能从机器味变成人味。
你敢信???
就一行字,决定了你是被当成AI还是被当成朋友。
我突然想起一件事
前两周我在一个群里,有人发了段聊天记录。说他在某个社交软件上跟一个人聊了三天,感觉特别投缘,结果对方最后说“其实我是AI”。他当场破防,把聊天记录甩到群里,配了个哭脸。
我当时还嘲笑他,说你连真人都分不清。
现在想想,小丑竟是我自己。
如果我面对的是GPT-4.5,加上一个精心设计的提示词,我不一定能比他强到哪去。
比“像人”更让人后背发凉的,是“能干人干不了的事”
如果说图灵测试是AI在“装人”这个赛道上的里程碑,那下面这条新闻就是另一个维度的降维打击。
Anthropic的Project Glasswing,一个AI安全项目,用Claude Mythos Preview模型,在全球关键系统里发现了**超过1万个高危漏洞**。
1万个。
注意,不是那种小网站的漏洞。是Cloudflare、Mozilla这种级别的关键系统。
Cloudflare一家就在自己的核心路径系统里挖出了2000个漏洞。Mozilla在Firefox 150版本中发现并修复了271个。
而且独立验证的准确率是90.6%。
什么意思?就是AI报告10个漏洞,9个是真的。
传统的渗透测试,一个安全专家一天可能挖出三五个高危漏洞。AI呢?扫描周期从3-5天缩短到1小时内。
我当时的反应是:这尼玛就是降维打击。
安全行业的人可能要睡不着了。不是因为他们会失业,而是因为**AI能做到人类永远做不到的事**——以机器级别的速度、精度和耐心,去翻遍每一个代码角落。
人类会累,会忽略,会有盲点。AI不会。
这两个事连在一起,让我想到了一个词
信任。
我们以前信任一个东西,要么因为它很“人”,要么因为它很“可靠”。
图灵测试告诉我们,AI可以“很人”到骗过你。Glasswing告诉我们,AI可以“很可靠”到发现人类发现不了的漏洞。
那问题来了——
以后你上网聊天,对面是不是真人?
以后你的银行系统、电网系统、医疗系统,安全是谁在保障?AI吗?
以后你信赖一个系统,是因为它背后有人,还是因为它背后有AI?
我坦率的讲,我自己也没有答案。
但我始终觉得,**信任不是技术问题,是心态问题**。
就像你今天用支付宝、微信支付,你不会去想“这背后有没有AI在监控我的每一笔交易”。你已经习惯了。
再过两年,你可能也不会去想“跟我聊天的这个人是不是真人”。只要聊得开心,是不是真人,重要吗?
这话听着有点刺耳。但我真觉得,这就是方向。
顺着上面的再聊聊
回到图灵测试那个73%。我就在想,为什么GPT-4.5能赢,而GPT-4o不行?
研究者给的答案是:提示词让AI学会了“人的语气”。
什么叫人的语气?不是字正腔圆,不是语法完美。是偶尔的“嗯…”,是打错字,是突然的哈哈哈,是那句“你懂的”。
就是我们人类自己都意识不到的那些小习惯。
AI把这些学去了,然后反手用它来骗我们。
挺讽刺的,不是吗?
我们自己最不完美的地方,成了AI伪装成我们的最佳武器。
还有一个让我沉默的数据
SemiAnalysis前两天发了个报告,分析了43.2万个真实的编码智能体请求。
发现中位数输入token高达9.6万。
9.6万token是什么概念?超过《了不起的盖茨比》全文长度。
也就是说,AI在帮人写代码的时候,每一轮任务,它要“读”的资料比一整本小说还多。
这已经不是“助手”了,这是“一个读了全书再帮你干活的高级员工”。
智能体工作负载,正在重塑推理经济学。
我看完这个数据,脑子里只有一句话:**我们真的准备好让AI以这种规模进入生产了吗?**
Glasswing已经进去了。Cursor已经被70%的财富500强用了。Codex的/goal模式可以连续工作几天几夜。
它们不只是工具,它们是同事,是员工,是安全专家,是程序员。
而且它们不喊累,不要求加薪,不会跳槽。
聊点让我兴奋的
说了这么多有点沉重的,也说个让我真的兴奋的。
Karpathy前两天发了一个CLAUDE.md文件,只有65行,4条核心规则。
就这么个小东西,登顶了GitHub趋势榜,22万星标。
哪四条规则?
1. 深度思考,不要急着写代码。
2. 追求简洁。
3. 精准修改。
4. 目标驱动。
就这么简单。
但效果有多离谱?用了这四条规则,AI编程的准确率从不知道多少飙到了94%。
我觉得这个太牛逼了。为什么?因为它告诉我们,**用好AI的关键不是更复杂的提示词,而是更像人的工作习惯**。
你让AI慢下来,让它先想清楚再动手,它就能干得更好。
这跟带一个实习生一模一样。
我自己也在代码里试了一下这个CLAUDE.md。怎么说呢,我之前用一个AI帮我写一个工具,它上来就咔咔写了200行,结果逻辑有问题,我debug了一下午。
加了这四条规则之后,它先问我“你想要什么?”,然后给了我三个方案让我选,最后写了80行,一次跑通。
当时我就愣住了。
真的就65行,4句话。
还有一个工具Kakuna
也是这周看到的,一个AI代理,专门把早期快速原型变成可维护的生产级代码。
它跑一次大概16小时,能生成上百次提交,把脆弱的MVP变成结构清晰的稳定项目。
16小时,上百次提交。一个人要做到这个程度,大概需要一周。
我不是说AI可以替代工程师。我是说,**工程师可以把那些“脏活累活”丢给AI,自己去干更创造性的东西**。
就像当年程序员不再需要手动管理内存,因为有了垃圾回收。不是替代,是解放。
最后说个让我笑出声的
Suno AI上周出了一首歌叫《Puerto Rico》,在社交媒体上病毒式传播。
你去听一下,真的,旋律上头,制作精良,完全听不出来是AI做的。
我就想,以后的音乐排行榜,会不会有一半是AI写的?
然后人类歌手说“我是真唱的”,评委说“请你证明”。
这个画面太特么赤鸡了。
收个尾
今天的信息量,真的很大。
图灵测试被攻破,AI发现1万个高危漏洞,智能体单次任务读完整本《了不起的盖茨比》,Karpathy的4条规则让代码准确率到94%。
每一件单独拎出来,都够写一篇长文。
但串在一起,我感受到一个更底层的趋势:
**AI正在从“像人”走向“超人”**。
像人的那面,让你觉得它亲切、可信、愿意跟它聊天。
超人的那面,让它做到人类做不到的事情,发现人类找不到的漏洞,处理人类处理不了的数据量。
这两个面合在一起,就是我们现在面对的AI。
不要怕,也别神话。就像Karpathy那4条规则说的,慢下来,想清楚,用它干脏活,自己去干创造性的活。
我还是那句话,永远对世界保持好奇。
今天你好奇了吗?
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~
谢谢你看我的文章,我们,下次再见。
夜雨聆风