AI 日报·2026-05-23:76年,图灵测试第一次被AI真正通过了.

76年，图灵测试第一次被AI真正通过了。

事情是这样的。

今天下午我在刷推特，看到一条新闻，整个人直接从椅子上弹了起来。

加州大学圣地亚哥分校的研究团队刚刚宣布，GPT-4.5在图灵测试中，被误认为人类的概率高达73%。

73%。

什么概念？真人的通过率都只有大概60%多。GPT-4.5比真人还像真人。

我盯着这个数字看了好久，一时间无语凝噎。

图灵测试这个东西，你可能听过。1950年图灵在那篇论文《计算机与智能》里提出的，说如果一台机器能在对话中骗过人类评委，让评委觉得它是真人，那就可以说它有智能。

76年了。

无数AI来挑战过，最早的ELIZA在60年代，后来的各种聊天机器人，再到GPT-3、GPT-4。都号称“接近通过”，但从来没有一个在严格的双盲测试里，真正超过真人。

现在GPT-4.5做到了。

而且不是险胜，是73%对真人63%，甩开了十个点。

你等等，这到底怎么测的？

我也好奇，赶紧翻了下论文细节。

这个测试不是那种“你好我是机器人请证明你不是”的弱智对话。是真人在线聊天，5到15分钟，评委完全不知道对面是谁。

除了GPT-4.5，还测了LLaMa-3.1-405B、GPT-4o，还有一个上古时代的ELIZA当对照组。

结果怎么着？

LLaMa-3.1-405B，56%，跟真人差不多。

GPT-4o，只有20%出头，比ELIZA好点但有限。

差距最大的是谁？你猜对了，GPT-4.5，73%。

而且研究者发现一个非常骚的事——**提示词至关重要**。

什么意思？就是同样的模型，你用不同的提示词告诉它“你要像一个真实的人类那样说话，带点幽默感，偶尔犹豫，偶尔打错字”。它就能从机器味变成人味。

你敢信？？？

就一行字，决定了你是被当成AI还是被当成朋友。

我突然想起一件事

前两周我在一个群里，有人发了段聊天记录。说他在某个社交软件上跟一个人聊了三天，感觉特别投缘，结果对方最后说“其实我是AI”。他当场破防，把聊天记录甩到群里，配了个哭脸。

我当时还嘲笑他，说你连真人都分不清。

现在想想，小丑竟是我自己。

如果我面对的是GPT-4.5，加上一个精心设计的提示词，我不一定能比他强到哪去。

比“像人”更让人后背发凉的，是“能干人干不了的事”

如果说图灵测试是AI在“装人”这个赛道上的里程碑，那下面这条新闻就是另一个维度的降维打击。

Anthropic的Project Glasswing，一个AI安全项目，用Claude Mythos Preview模型，在全球关键系统里发现了**超过1万个高危漏洞**。

1万个。

注意，不是那种小网站的漏洞。是Cloudflare、Mozilla这种级别的关键系统。

Cloudflare一家就在自己的核心路径系统里挖出了2000个漏洞。Mozilla在Firefox 150版本中发现并修复了271个。

而且独立验证的准确率是90.6%。

什么意思？就是AI报告10个漏洞，9个是真的。

传统的渗透测试，一个安全专家一天可能挖出三五个高危漏洞。AI呢？扫描周期从3-5天缩短到1小时内。

我当时的反应是：这尼玛就是降维打击。

安全行业的人可能要睡不着了。不是因为他们会失业，而是因为**AI能做到人类永远做不到的事**——以机器级别的速度、精度和耐心，去翻遍每一个代码角落。

人类会累，会忽略，会有盲点。AI不会。

这两个事连在一起，让我想到了一个词

信任。

我们以前信任一个东西，要么因为它很“人”，要么因为它很“可靠”。

图灵测试告诉我们，AI可以“很人”到骗过你。Glasswing告诉我们，AI可以“很可靠”到发现人类发现不了的漏洞。

那问题来了——

以后你上网聊天，对面是不是真人？

以后你的银行系统、电网系统、医疗系统，安全是谁在保障？AI吗？

以后你信赖一个系统，是因为它背后有人，还是因为它背后有AI？

我坦率的讲，我自己也没有答案。

但我始终觉得，**信任不是技术问题，是心态问题**。

就像你今天用支付宝、微信支付，你不会去想“这背后有没有AI在监控我的每一笔交易”。你已经习惯了。

再过两年，你可能也不会去想“跟我聊天的这个人是不是真人”。只要聊得开心，是不是真人，重要吗？

这话听着有点刺耳。但我真觉得，这就是方向。

顺着上面的再聊聊

回到图灵测试那个73%。我就在想，为什么GPT-4.5能赢，而GPT-4o不行？

研究者给的答案是：提示词让AI学会了“人的语气”。

什么叫人的语气？不是字正腔圆，不是语法完美。是偶尔的“嗯…”，是打错字，是突然的哈哈哈，是那句“你懂的”。

就是我们人类自己都意识不到的那些小习惯。

AI把这些学去了，然后反手用它来骗我们。

挺讽刺的，不是吗？

我们自己最不完美的地方，成了AI伪装成我们的最佳武器。

还有一个让我沉默的数据

SemiAnalysis前两天发了个报告，分析了43.2万个真实的编码智能体请求。

发现中位数输入token高达9.6万。

9.6万token是什么概念？超过《了不起的盖茨比》全文长度。

也就是说，AI在帮人写代码的时候，每一轮任务，它要“读”的资料比一整本小说还多。

这已经不是“助手”了，这是“一个读了全书再帮你干活的高级员工”。

智能体工作负载，正在重塑推理经济学。

我看完这个数据，脑子里只有一句话：**我们真的准备好让AI以这种规模进入生产了吗？**

Glasswing已经进去了。Cursor已经被70%的财富500强用了。Codex的/goal模式可以连续工作几天几夜。

它们不只是工具，它们是同事，是员工，是安全专家，是程序员。

而且它们不喊累，不要求加薪，不会跳槽。

聊点让我兴奋的

说了这么多有点沉重的，也说个让我真的兴奋的。

Karpathy前两天发了一个CLAUDE.md文件，只有65行，4条核心规则。

就这么个小东西，登顶了GitHub趋势榜，22万星标。

哪四条规则？

1. 深度思考，不要急着写代码。

2. 追求简洁。

3. 精准修改。

4. 目标驱动。

就这么简单。

但效果有多离谱？用了这四条规则，AI编程的准确率从不知道多少飙到了94%。

我觉得这个太牛逼了。为什么？因为它告诉我们，**用好AI的关键不是更复杂的提示词，而是更像人的工作习惯**。

你让AI慢下来，让它先想清楚再动手，它就能干得更好。

这跟带一个实习生一模一样。

我自己也在代码里试了一下这个CLAUDE.md。怎么说呢，我之前用一个AI帮我写一个工具，它上来就咔咔写了200行，结果逻辑有问题，我debug了一下午。

加了这四条规则之后，它先问我“你想要什么？”，然后给了我三个方案让我选，最后写了80行，一次跑通。

当时我就愣住了。

真的就65行，4句话。

还有一个工具Kakuna

也是这周看到的，一个AI代理，专门把早期快速原型变成可维护的生产级代码。

它跑一次大概16小时，能生成上百次提交，把脆弱的MVP变成结构清晰的稳定项目。

16小时，上百次提交。一个人要做到这个程度，大概需要一周。

我不是说AI可以替代工程师。我是说，**工程师可以把那些“脏活累活”丢给AI，自己去干更创造性的东西**。

就像当年程序员不再需要手动管理内存，因为有了垃圾回收。不是替代，是解放。

最后说个让我笑出声的

Suno AI上周出了一首歌叫《Puerto Rico》，在社交媒体上病毒式传播。

你去听一下，真的，旋律上头，制作精良，完全听不出来是AI做的。

我就想，以后的音乐排行榜，会不会有一半是AI写的？

然后人类歌手说“我是真唱的”，评委说“请你证明”。

这个画面太特么赤鸡了。

收个尾

今天的信息量，真的很大。

图灵测试被攻破，AI发现1万个高危漏洞，智能体单次任务读完整本《了不起的盖茨比》，Karpathy的4条规则让代码准确率到94%。

每一件单独拎出来，都够写一篇长文。

但串在一起，我感受到一个更底层的趋势：

**AI正在从“像人”走向“超人”**。

像人的那面，让你觉得它亲切、可信、愿意跟它聊天。

超人的那面，让它做到人类做不到的事情，发现人类找不到的漏洞，处理人类处理不了的数据量。

这两个面合在一起，就是我们现在面对的AI。

不要怕，也别神话。就像Karpathy那4条规则说的，慢下来，想清楚，用它干脏活，自己去干创造性的活。

我还是那句话，永远对世界保持好奇。

今天你好奇了吗？

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～

谢谢你看我的文章，我们，下次再见。