这一周,AI真正”立”起来了

说个我最近特别强烈的感受。

就是你看AI新闻这件事，以前总有一种”明天可能就变天了”的焦虑感——每天醒来都有新模型、新发布、新论文，感觉自己永远在追赶。

但这一周，我突然觉得有一批东西开始”立住了”。

不是那种”Demo很惊艳但落地还早”的东西，而是真的开始落地、开始成熟、开始有了自己的逻辑体系的那种”立住”。

怎么讲？听我慢慢说。

一、Claude Mythos解开了OpenAI的一道数学题：这不只是竞争，是AI推理能力的量级跃升

先说这件事，我觉得是本周最重磅的技术新闻，但关注度被低估了。

OpenAI前阵子刚刚宣布用AI证明了Erdős单位距离猜想——这是一个从1946年就存在的开放数学问题，在组合几何领域属于殿堂级难题。然后Anthropic的工程师SholtoDouglas在X上说：我们ClaudeMythos也做出来了，而且是用一个”cute, simpleproof”（一个简洁巧妙的证明）。

你品一下这个用词——“cute”。不是”我们更强大”，而是”我们觉得这个解法很美”。

数学家的直觉告诉我这很牛。

更值得关注的是背后的机制：Anthropic的团队是用多个隔离的ClaudeCode实例协作完成这道题的——一个实例拿到问题后生成解法路径，然后汇总分配给其他实例独立工作，最终Mythos走出了和OpenAI不同的解题路径，但同时也复现了OpenAI的解法。

这意味着什么？

意味着AI的数学推理已经进入”多路径探索”的阶段了。不是靠暴力计算，而是真的在”思考”。不是从训练数据里召回答案，而是在做真正的推理。

前几天GoogleDeepMind也宣布用AI解了9道Erdős问题，但那套系统依赖Lean形式化证明语言，需要人工先把问题翻译成Lean格式。而ClaudeMythos是一个AgenticHarness，不需要这个步骤，直接读题解题。

这不是Anthropic和OpenAI之间的”谁更强”的问题。这是整个AI推理领域在2026年集体跨过了一个门槛。

二、Anthropic写了篇长文，讲他们怎么给Claude”上锁”——这是我看过的最诚实的AI安全讨论

这周Anthropic发了一篇工程博客，标题就叫《How we contain Claude across products》，讲他们怎么在不同的产品里控制Claude的风险。

我读完的感受是：这可能是我见过的最诚实、最有深度的AI安全工程实践分享。

他们把Agent部署风险拆成了两个维度：失败概率×爆炸半径。

模型能力和安全训练在持续降低”失败概率”，但随着Claude接入的工具越来越多、能做的事越来越强，“爆炸半径”反而在扩大。Agent做得越像人，你越不敢放它自由行动。

他们的解法是三重隔离：

第一层：沙箱+虚拟机+网络出口控制。直接限制Agent能运行环境，控制它和外部世界的交互边界。

第二层：系统提示词+模型训练引导。从根本上让模型”不想”做坏事，而不是仅仅”不能”做坏事。

第三层：MCP服务器和第三方插件的细粒度权限管理。这是最容易被忽略但也最危险的一层——当Agent接入了大量外部工具，每个工具的权限都要单独管理。

他们还提到了一个有意思的细节：ClaudeCode之前的做法是”每一步都让用户确认”。听起来很安全对吧？但遥测数据显示，用户对权限提示的批准率高达93%。越批准得多，注意力和警惕性越低。93%的批准率意味着用户在第100次批准时跟第1次已经完全不同了——人不是机器，你不可能长期保持高度警觉。

所以他们做了Claude Code Auto Mode，让更安全的自动化审批替代人的疲劳审批。

这是我觉得这篇文章最值钱的地方——他们不是在展示”我们已经完美控制风险了”，而是在诚实地承认”这个问题我们还在探索中”。这种诚实，比很多公司画的安全路线图更让人安心。

三、Sundar Pichai接受了The Verge的采访，聊了Google的AI战略和网络的未来

Google CEO Pichai在GoogleI/O之后接受了TheVerge的专访，这是他连续第五年做这档访谈。聊了很多东西，但我觉得有几点特别值得记录。

关于搜索的未来：他说Google正在从”提供结果”转向”启动任务”。GeminiSpark智能体平台要做的事情，就是让搜索不再是”给你一串链接”，而是”帮你把事情搞定”——搜索触发行动，而不是搜索返回页面。

关于”GoogleZero”：就是你可能听过的那个概念——随着Google直接在搜索结果页回答越来越多问题，来自Google的网站流量可能会归零。Pichai被问到这个问题，他选择正面回应而不是打太极，但他的答案本质上是”网络不会死，但我们对网络的使用方式在变”。有意思的是，TheVerge的编辑自己在报道里说，这是他从Pichai那里听到的”最清醒的承认”。

关于YouTube作为训练资产：他还提到Google正在用YouTube视频训练视频搜索和索引模型。YouTube是全球最大的视频内容库，这个训练数据优势是Google独家的。

关于AGI时间线：他认同Hassabis说的”我们正处于智能奇点的起步阶段”。这话从他嘴里说出来，分量不一样。

四、Runway说AI视频已经”跨越恐怖谷”了——我的第一反应是：我信

Runway这周发了一篇研究文章叫ProjectLuxo，讲的是他们对AI生成视频的一个关键判断：AI视频已经跨越恐怖谷了。

恐怖谷理论你可能知道——当一个虚拟形象越像人，但又不是完全真实的时候，人的感受是”恐怖”而不是”亲切”。之前AI生成的视频，就是卡在这个区间里：眼睛不对、面部漂移、嘴唇不同步、运动不自然。

Runway说，他们给一批AI生成的短片做盲测——创作者、演员、制片人、媒体人——所有人都说”这些片子成了”。观众开始关注故事本身，而不是”这是AI做的”。

他们还提到一个细节：所有作品都是由单人团队制作的，耗时从3周到4小时不等。一部9分57秒的短片《TheRogue》，由一个人用3周完成。

我为什么说我信？因为Runway的判断标准很有意思：技术变得”隐形”。当技术足够好的时候，你不会注意到它。你在看故事，不是在看”AI生成的视频”。这才是真正跨越恐怖谷的标准。

生成式AI的成熟路径，似乎正在重演相机取代画家的过程——一开始所有人都说”相机没有灵魂”，后来相机让所有人都能拍照，让画家的门槛从”会画”变成”画得好”。AI视频也一样。

五、Ethan Mollick说”选择保持人类”，我读完觉得他说的是对的，但也有盲区

沃顿商学院教授、著名的AI观察者EthanMollick发了一篇文章叫《Choosing to Stay Human》。他观察到：

社交媒体上越来越多的帖子开始”长得一样”——因为它们都是AI生成的。评论区也是AI，学术论文是AI，甚至还有AI写的文章拿了文学奖。AI写作的特征不只是”相似”，而是”缺乏意义”。你读一段AI写的文字，会觉得它逻辑通顺，但营养密度很低，像是在用”看起来很努力的文字”消耗你的注意力。

他真正想说的不是”AI写作不好”，而是：如果连写作这种表达个人风格的核心能力都外包给AI了，人类在写作过程中获得的成长怎么办？他自己写了几十年，才练出了自己的风格。如果一开始就靠AI写，会跳过那个”笨拙地学习”的过程。

这段我非常认同。但我也有我的盲区补充——

Mollick说的是那些”每天大量生产内容”的创作者。但还有另一批人，他们不是”被AI替代写作”，而是”用AI释放了更多精力去做只有人才能做的事”。用AI写初稿，用人写温度。AI不是终点，是起点。

所以我对这件事的态度是：Mollick说的对，但解法不是”不用AI”，而是”用了AI之后，把省下来的时间用来做什么”。这个问题，他没有回答。

六、几个你可能错过的”小”新闻

Anthropic要在首尔开办公室了。他们任命了前Snowflake韩国区总经理KiYoungChoi担任韩国代表董事。韩国是Claude.ai全球最活跃的市场之一，用户活跃度是人口规模预期的3.5倍。Anthropic的韩国市场策略很明确：SKTelecom已经用Claude构建产品，法律科技公司Law&Company也在用。AI大厂出海，现在是真正的落地战。

ClaudeCode伦敦活动发布了两项新能力。自托管沙盒（沙盒版进入公开测试）和MCP管道（研究预览）。使用这两项新能力的客户已经有Spotify、Base44和Legora。ClaudeCode的Agent执行环境，正在从”开发工具”变成”企业级AI工作平台”。

OpenRouter完成了1.13亿美元B轮融资。这家AI路由器平台在过去6个月里，每周处理的token量从5万亿增长到了25万亿。他们是AI基础设施层的”中间商”——帮开发者对接各种模型、提供统一接口。这个融资规模说明，AIinfra层的需求还在高速增长，不是过热，是真的不够用。

总结：这一周的”立住感”来自哪里

写到这里，我回过头来看这一周的所有新闻，我发现有一个共同的主题：

AI开始有了自己的”判断力”和”执行力”。

Claude Mythos做数学证明——推理判断
Anthropic的containment体系——系统执行与控制
Runway的ProjectLuxo——创作执行跨越门槛
Claude Code的自托管沙箱——企业级执行环境
Sundar Pichai说搜索从”返回结果”变成”完成任务”——产品执行逻辑在变

这周不是某一款新模型的发布，不是某一次新功能的迭代。是底层能力的体系化，和上层应用开始规模化落地同步发生了。

我跟你说过，以前看AI新闻总有一种”追赶焦虑”。这周我的感受不太一样——我开始有一种”在看一个行业成型”的感觉了。

这种感觉，我上一次有，还是2012年前后看移动互联网的时候。

那时候也是，所有人都在说手机改变一切，但到底怎么改变、谁能活下来、商业模式是什么，没人说得清。但你能感觉到，地壳在移动。

现在也是。

时间。流逝的本身。

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～

谢谢你看我的文章，我们，下次再见。