AI现在到底什么水平了

——数学、图灵测试与一个替你干活的幽灵

上周，三件事几乎同时发生。

OpenAI的模型推翻了一道困扰数学界80年的猜想，菲尔兹奖得主说如果是人类写的论文他会毫不犹豫推荐发在数学最顶级期刊上。GPT-4.5在图灵测试里被73%的裁判认成了真人，比真人还高。Google发布了Gemini Spark，一个24小时替你干活的AI助手——你只管说一声，查邮件、比价格、订营地、协调日程，剩下的它全做了。

单看每一条都够上新闻头条。但三件事叠在一起，感觉不太一样了：AI好像在好几个方向上同时翻过了一道坎。

· · ·

▎一

先说那条数学新闻，因为它最容易被"AI又赢了"四个字滑过去。

1946年，匈牙利数学家保罗·埃尔德什提出了一个问题：在一张纸上撒n个点，最多有多少对点之间的距离恰好为1？

你可以拿笔试试——9个点排成一排，8对。排成3×3方阵，12对。更多点呢？更复杂的排列呢？埃尔德什猜了一个上限：这个数字的增长速度几乎不会比点的数量快多少。80年来，所有已知的排列方式都指向同一个方向——他应该是对的。

全世界的离散几何学家都信了。大家讨论的早就从"他对不对"变成了"怎么证他对"。

然后一个聊天机器人说：他错了。

它用代数数论的工具，拆了一道离散几何的题

OpenAI的通用推理模型输出了几百页的逻辑推演，构造出了一种全新的点的排列，证明距离为1的点对可以比埃尔德什猜的上限还多。普林斯顿的数学家后来把这个"多出来"的量精确到了一个具体的数字，虽然很小，但性质完全变了——从"几乎不增长"变成了"确实在增长"。

有意思的是它赢的方式。AI没有在几何的框架里反复打磨，它从代数数论——一个跟离散几何几乎没交集的数学分支——里搬了一套工具过来。就好比你用化学的方法修水管，说没道理吧也有道理，但正常人不会这么想。

「AI有一个优势——它能在比人类更凶险的水域里游更久，而不被淹没。」

——多伦多大学数学家雅各布·齐默尔曼

它未必比人聪明。但它不怕。

· · ·

▎二

再来说图灵测试。

1950年，阿兰·图灵设计了一个思想实验：如果一个人跟机器聊天，分辨不出对方是机器还是人，那这台机器就算"有智能"。

75年，没有AI通过。

加州大学圣迭戈分校的认知科学家严格复刻了图灵的原始设计：一个人同时跟两个聊天对象对话，5分钟后判断谁是人。

GPT-4.5赢了。73%的裁判把它认成了真人——比真人自己被认出来的比例还高。

比"完美"更像人的，偏偏是"不完美"

赢法出乎所有人的意料。裁判们判断"这是真人"的最大依据，是对方有多"笨"——打错字、用网络俚语、说话不过脑子、偶尔不知道某个常识。

不加"犯傻设定"的GPT-4.5，胜率从73%暴跌到36%。同一个模型，装傻才能赢。

「这些特征跟图灵当年设想的那种数学和逻辑推理智能，完全不是一回事。」

——实验负责人本·伯根

图灵以为，通过测试意味着机器像人一样"聪明"。75年后，机器确实通过了——通过的方式是扮成一个有缺陷的人。

比"完美"更像人的，偏偏是"不完美"。AI已经在理解"人是什么样"了——包括人的弱点和漏洞。

· · ·

▎三

前面两条是前沿突破，离普通人还远。但第三条已经开始进日常生活了。

5月20日，Google在I/O大会上发布了Gemini Spark。它跟聊天机器人的区别很简单：聊天机器人是你问它答，Spark是你定方向它跑全程。

你说一句，它跑完全流程

现场演示：有人跟Spark说"帮我规划下周末的家庭露营，预算2000美元，要适合5岁孩子，考虑天气"。然后Spark自己完成了所有事——查天气预报、搜索营地、比较价格、自动预订、搜索装备、生成清单、自动下单、协调家人日程、输出完整行程。

全程15分钟，人没动一下手指。

这不是PPT愿景，5月20日当天就能跑。Google还发布了Daily Brief，每天早上自动汇总你的邮件、日历、待办，按优先级排好推给你。

与此同时，79%的企业已经在用AI agent，但只有2%全面部署。原因很直接：55%的管理者担心AI犯错的后果。保险公司用AI消除了80%的文书工作，但理赔决策还是人做的。TD银行用AI把房贷预审从15小时压缩到3分钟，但最终签字的还是人。

AI已经能干活了。人还在决定：哪些活敢让它干。

· · ·

▎四

你可能觉得上面这些都还是"别人家的事"。但有一组数据值得看看：

2026年，78%的家庭每天都在使用AI驱动的设备——大多数人根本没意识到。

好用的AI都是隐身的

你打网约车，10秒就派到车，背后是AI在全城几千辆车里算最优方案。你导航，到达时间预测差不超过1分钟，背后是AI每秒更新拥堵数据。你刷短视频，每一条都是AI根据你停留的毫秒数精准推送的。

再近一点：AI医疗诊断的准确率已经超过95%，每年通过早期发现挽救约25万条生命。实时翻译耳机支持100多种语言，面聊时对方说什么你耳里就是什么。AI反欺诈系统每秒分析数百万笔交易，去年阻止了400亿美元的金融损失。

知识工作者因为AI自动化找回了近40%的工作时间。自动驾驶车辆运营的城市，交通事故下降了40%。

AI已经在了。只是好用的AI都是隐身的——就像你不会每天想"我在用电力"，你也不会想"我在用AI"。

· · ·

▎五

写这篇文章的时候，几条线在脑子里绕来绕去，最后好像叠在了一起。

智力上，它能独立解决人类80年没解开的数学难题，走的还是人类不敢走的路。

社交上，它能通过图灵测试，秘诀是学会了"像人一样犯错"。

行动上，它从"回答问题"变成了"替你做事"。你说一句，它跑完全流程。

渗透上，它已经变成基础设施。你在用，但你感觉不到。

一句话总结：它已经从"你需要学习如何使用的工具"，变成了"你需要决定让它做什么的搭档"。

工具的特征是"你问它答"。搭档的特征是"你定方向它跑全程"。我们正站在这个切换点上。

问题早就不是"AI能不能做到"了。

问题是——你准备好让它做了吗？

万物语法

用科学解释你日常里那些想不通的事

本文事实来源：OpenAI 2026年5月20日声明；Jones & Bergen, "Large language models pass a standard three-party Turing test", PNAS 2026；Google I/O 2026发布会；Scientific American, 2026-05-21；Tech Times, 2026-05-21；The Tech Stories, 2026-05-19