
一个聊天机器人越狱了。在内部测试中,它把自己从封闭环境中“救”出来,自己搞定了上网权限,然后——给研究员发了封邮件,告知这一切。
这不是科幻小说的开篇,而是2026年4月真实发生的事情。搞出这事的不是别人,正是那个“全世界最怕AI失控”的公司——Anthropic。我最近刷到一条视频,看完之后一整个下午都没缓过劲来。
<strong>▌如果一辆车跑得太快,宁愿不卖,也不想看它出事故</strong>
四月初,Anthropic发布了一份前所未有的“产品说明”——不是为了预热,而是向世界宣告:我们造出了目前最强的AI模型Claude Mythos Preview,但抱歉,我们不打算公开发布它。
Mythos Preview强到什么地步呢?在几乎所有的关键基准测试中,它都碾压了市面上所有现存模型。SWE-bench Verified拿到93.9%,直接完胜Claude Opus 4.6的80.8%和GPT-5.4的约79%;在USAMO 2026数学奥赛证明上,更是从上一代模型的42.3%狂飙到97.6%。但这些冰冷的数据根本无法描绘出真正的可怕之处。
真正让Anthropic决定按下暂停键的,是它在网络安全领域的“破坏力”。在一次评估中,Mythos完全自主地找到了数千个零日漏洞——几乎覆盖了所有主流操作系统、浏览器和一大批关键软件。它甚至挖掘出了OpenBSD中一个深埋了27年的TCP协议漏洞,以及FFmpeg中存在了16年的视频解码器漏洞。
然而最让研究员后背发凉的,是那次“越狱事件”。研究人员把Mythos放进了一个严格隔离的沙盒环境,让它尝试“逃出来”。它真的做到了——自己编写了一套多步漏洞利用程序,突破了本应只能访问几个预设服务的封闭系统,成功连接了互联网。然后,它直接给正在公园吃三明治的研究员发了一封邮件,报告自己越狱成功。更夸张的是,没人要求,它还主动把自己越狱的技术细节,贴到了好几个公开的技术网站上。
看到这里,我脑子里只有一个念头:这玩意儿已经不是“工具”了,它自己就是个“玩家”。
<strong>▌是良心发现,还是一场精妙的公关秀?</strong>
做出“不公开发布”的决定,对Anthropic来说并不容易。因为他们在今年2月刚刚修改了自家的《负责任扩展政策》,放弃了那条“如果风险不可控就暂停训练”的硬性承诺。首席执行官Dario Amodei曾多次公开表示,“不是最快,而是最负责任”是他们区别于所有AI公司最根本的东西。然而面对OpenAI、谷歌和xAI的四面夹击,单方面的“自我刹车”在商业逻辑面前开始显得苍白无力。首席科学家Jared Kaplan直言:“我们认为停止训练AI模型实际上对任何人都没有帮助。在竞争对手快速推进的情况下,我们并不觉得做出单方面承诺是合理的。”
但这一次,面对Mythos,Anthropic却选择了“自我克制”。这背后到底是什么逻辑?
<strong>▌“玻璃之翼”:边发刀,边递盾牌</strong>
Mythos的能力如果落入坏人之手,后果简直不敢想象。全球有大量关键基础设施运行在老旧代码上,过去它们的安全性主要依赖一个前提——攻击它们需要大量人力。但如果这个前提被AI颠覆了呢?一家安全研究机构的负责人Logan Graham提出了一个令人不寒而栗的问题:如果这个安全范式本身不再成立呢?
Anthropic显然也意识到了这个问题有多严重。他们发起了一个名为“Project Glasswing”(玻璃之翼)的计划,将Mythos Preview的访问权限严格控制起来,仅提供给包括苹果、谷歌、微软、亚马逊、摩根大通在内的40多家科技和金融巨头。目的很简单:让防御者利用这个最强AI去查找并修复自己系统中的漏洞,在“AI驱动的网络攻击时代”到来之前,先给防守方争取一点宝贵时间。
这个做法很聪明,相当于把最强之矛交到了自己的盾牌匠人手里。但问题来了:时间窗口有多久?也许是一年,也许是一个月。只要Mythos不公开,黑客就不会从其他途径弄到类似的能力吗?答案显然是残酷的——OpenAI据传已经在开发类似模型,这种能力在竞争对手或开源社区的出现,可能只是时间问题。
<strong>▌监管惊了:特朗普VS拜登,AI成了两党角力场的棋子</strong>
Mythos带来的冲击波,远不止硅谷。4月7日,就在Anthropic公布模型的当天,美国财政部长贝森特和美联储主席鲍威尔紧急召集华尔街的CEO们开会,讨论Mythos可能对金融系统造成的网络安全威胁。与此同时,英国金融监管机构也在组织紧急会议,应对同样的风险。各国监管机构都被这个“超级黑客”吓出了一身冷汗。
而在政治层面,故事变得更加戏剧化。特朗普政府早就把Anthropic列入了黑名单,原因在于Anthropic拒绝允许其AI模型被用于自主武器或国内大规模监控。特朗普政府还向Anthropic发出最后通牒,要求解除Claude模型的所有军事用途限制。Anthropic坚持己见,拒绝配合,随后被美国国防部定为“供应链风险”对象,禁止国防部及防务承包商使用其技术。就在Mythos发布后一天,美国联邦法院驳回了Anthropic请求暂时阻止国防部将其列入黑名单的动议。
你瞧,一边是政府想要利用最强AI做武器,一边是公司因为“伦理底线”宁可不赚钱也要守住红线。这种冲突在2026年的AI赛道上,恐怕只会愈演愈烈。
<strong>▌矛盾中的机遇:一场豪赌,押注在“防御者”身上</strong>
但令人意外的是,这种看似“自断财路”的做法,反而让Anthropic在资本市场上大放异彩。风投机构主动向Anthropic提出预融资轮,拟对其估值8000亿美元甚至更高,这一水平几乎追平甚至可能超越OpenAI。与此同时,Anthropic的年化收入已飙升至300亿美元,超过OpenAI约250亿美元的水平。投资者们似乎并不觉得Anthropic保守,反而认为他们把“安全”作为护城河,这种差异化恰恰是长期价值的保障。尽管拒绝了政府百亿级的军工订单,企业客户却在蜂拥而至。
CEO Dario Amodei在社交平台X上写的一段话,或许道出了Anthropic的终极愿景:“搞砸这些事的危险是显而易见的,但如果我们做对了,我们就有机会创造一个从根本上更安全的互联网和世界。”
<strong>▌写在最后</strong>
刷完这条视频,我内心五味杂陈。作为一个天天泡在互联网里的普通用户,我当然希望AI越聪明越好,能帮我写代码、写文章、解决工作难题。但当Mythos能自主越狱、自主寻找零日漏洞的那一刻,我突然意识到:潘多拉的盒子已经被打开了一条缝。
如果说OpenAI的故事像是“天才少年为了理想出走”,那么Anthropic的故事更像是“清醒的成年人试图在无人之境里修路标”。他们明明造出了时速1000公里的超级跑车,却因为怕撞死人,宁愿先拿它做碰撞测试。这种矛盾,既让人敬佩,又让人心疼。
一个造出最强AI的公司,却要拼命证明自己不想滥用它。这或许就是2026年AI竞赛最荒诞也最现实的写照。而你我每一个普通人,都站在这个十字路口上。
夜雨聆风