AI黑箱: Anthropic藏起来的“危险模型”,正在改写互联网安全的底层逻辑

你一定听过这样的鸡汤：AI越强大，越该公开透明，让全人类共享科技红利。

平庸者对此深信不疑，把“公开即正义”奉为圭臬，仿佛只要AI不藏着掖着，就能避免所有风险。但智人之所以能站在食物链顶端，靠的从不是肤浅的“共享”，而是对风险的精准预判——有些力量，藏起来，才是对人类最大的保护。

最近，Anthropic搞出了一件颠覆行业的事：他们研发出一款名为Claude Mythos的AI模型，号称能轻松破解全球所有主流操作系统和浏览器的安全漏洞，却坚决不向公众开放，甚至连美国政府都拿不到访问权限。

更反常识的是，这款被他们称为“太危险”的模型，没有被销毁，反而被交给了微软、苹果、思科等科技巨头组成的联盟，专门用来“防御”网络攻击。

这不是营销噱头，也不是故弄玄虚。这是一场关于AI权力、网络安全与人类存续的暗战——我们以为自己在掌控AI，殊不知，AI已经开始重构我们赖以生存的互联网地基，而我们连围观的资格都没有。

反常识1：最强大的AI，不该公开，而该“上锁”

现代人的通病，是把“公开”等同于“安全”，把“保密”等同于“阴谋”。尤其是在AI领域，每当有新模型诞生，总有一群人跳出来喊“公开权重”“全民测试”，仿佛只要所有人都能用上，就能杜绝风险。

但Claude Mythos的出现，给了这群人一记响亮的耳光：有些AI，一旦公开，就是灾难。

先看一组足以颠覆认知的数据，来自Anthropic内部测试：这款模型在几周内，找到了全球所有主流操作系统和浏览器的安全漏洞，其中包括两个足以让互联网陷入瘫痪的“世纪漏洞”。

第一个，是存在了27年的OpenBSD漏洞。OpenBSD是一款开源操作系统，专门用于防火墙和路由器，是互联网的“安全护城河”，被设计成“几乎无法被黑客攻击”。27年来，无数专业安全研究员前赴后继，试图找到它的漏洞，都一无所获。

但Claude Mythos做到了。凭借其顶尖的编码和推理能力，它轻松破解了这个被人类奉为“铜墙铁壁”的系统，而整个过程，只用了不到1小时。

第二个，是FFmpeg的漏洞。FFmpeg是一款流行的开源视频软件，广泛应用于各类视频平台和服务，此前已经被自动化安全工具扫描了500万次，没有发现任何 critical 漏洞。但Claude Mythos，在第500万零1次扫描中，找到了这个足以被黑客利用、窃取海量用户数据的漏洞。

这就是AI的恐怖之处：它的效率和精准度，已经超越了人类的极限。人类花27年、500万次都做不到的事，它几小时就能完成。

更可怕的是，这种能力不需要专业的黑客技术。一个对网络安全一窍不通的普通人，只要拿到Claude Mythos的使用权，就能在几小时内找到Linux内核的漏洞，轻松控制他人的电脑、手机，甚至是企业的服务器。

“如果我们公开这款模型，不出24小时，就会有黑客利用它发起大规模网络攻击，到时候，银行账户、个人信息、甚至是国家的能源、水利基础设施，都会成为攻击目标。”——Anthropic高管

这就是Anthropic的选择：不公开，不售卖，只给“好人”用。他们发起了“Glasswing计划”，将Claude Mythos的访问权限，只开放给微软、苹果、思科等科技巨头的网络安全防御团队（也就是行业内的“蓝队”），让他们提前找到自己系统的漏洞，做好防御。

很多人质疑这是营销手段，但稍微用点逻辑就能想明白：如果是营销，Anthropic完全可以公开模型、收取高额订阅费，而不是免费提供价值1亿美元的Claude credits，甚至把访问权限开放给微软这样的竞争对手。

平庸者看不到的是，AI的权力越大，责任就越大。真正的理性，不是追求“全民共享”，而是在风险与利益之间，找到最平衡的临界点。Claude Mythos的“上锁”，不是保守，而是对人类最基本的负责——这太高级了，也太反常识了。

反常识2：互联网的“地基”，早已是“豆腐渣工程”

我们每天用手机、电脑、平板上网，刷视频、聊微信、办业务，总以为互联网是坚不可摧的。但真相是，我们赖以生存的互联网，本质上是用“ spit and glue”（口水和胶水）粘起来的——这不是夸张，是行业内的共识。

用物理学的逻辑来类比：互联网就像一座高楼大厦，我们看到的是光鲜亮丽的外立面（APP、网站、服务），但它的地基（开源软件、操作系统、路由器），早已布满裂痕。

为什么？因为现代软件的开发，本质上是“拼积木”。没有任何一家公司会从零开始编写所有代码，大家都会直接使用开源软件——这些软件免费、通用、兼容性强，能节省大量时间和成本。

比如，你的手机APP、电脑浏览器、视频平台，几乎都用到了FFmpeg的代码；你的路由器、防火墙，大多运行着OpenBSD这样的开源操作系统。这些开源软件，就像建筑的“预制板”，被广泛应用于互联网的每一个角落。

但问题在于，这些“预制板”，大多是几十年前开发的，由一群志愿者维护，没有专业的安全团队进行全面测试。更重要的是，它们的漏洞，往往需要人类花几年、甚至几十年才能发现——就像OpenBSD那个27年的漏洞。

这就是互联网的致命缺陷：它的底层基础，依赖的是人类的“经验”，而人类的经验，是有限的、滞后的。

而Claude Mythos的出现，彻底打破了这种平衡。它就像一台“超级检测仪”，能在瞬间扫描出所有“预制板”的裂痕，而且精准度远超人类。Anthropic的测试显示，这款模型能找到所有主流开源软件的“零日漏洞”——也就是那些还没被人类发现、没有任何补丁的漏洞。

这意味着什么？意味着互联网的“地基”，在AI面前，几乎是透明的。只要有人愿意，就能轻易撬动整个互联网的根基。

更遗憾的是，这种“豆腐渣工程”的现状，短期内无法改变。因为开源软件的维护者，大多是志愿者，没有足够的人力和资源去修复所有漏洞；而企业为了节省成本，也不会主动去替换这些“预制板”——毕竟，替换成本太高，而且短期内看不到风险。

Alex Stamos，前雅虎、Facebook安全主管，也是业内顶尖的安全专家，对此有过一段精准的评价：

“AI的智能和自主能力，已经强大到能串联起人类永远看不到、或者永远没时间看到的漏洞。我们一直很幸运，没有发生过大规模的互联网灾难，但这种幸运，不会一直持续。”

智人总喜欢高估自己的能力，低估风险的破坏力。我们以为自己能掌控互联网，却不知道，互联网的“地基”早已千疮百孔，而Claude Mythos的出现，只是把这个残酷的真相，赤裸裸地摆在了我们面前。

反常识3：AI的“安全困境”，是人类的“权力困局”

Claude Mythos的故事，还有一个更诡异的细节：这款能保护互联网安全的模型，其研发公司Anthropic，正在被美国政府“追杀”。

过去几个月，美国政府一直试图将Anthropic列为“供应链风险”，禁止所有联邦机构使用Claude系列模型。也就是说，一边是美国政府在严防死守Anthropic，一边是Anthropic在用自己的模型，保护美国的互联网基础设施——这简直是一场黑色幽默。

更讽刺的是，美国政府至今没有权限访问Claude Mythos。一款能找到全球所有操作系统漏洞、关乎国家网络安全的模型，掌握在一家私人公司手里，而国家层面，却连围观的资格都没有。

这背后，是AI时代最核心的困局：AI的权力，已经超越了国家的掌控，而我们却没有任何对应的监管体系。

用经济学的逻辑拆解：AI模型，本质上是一种“权力工具”。它的能力越强，拥有它的人，就拥有越大的权力。Claude Mythos能破解所有系统漏洞，意味着拥有它的人，能掌控整个互联网的安全——既能保护，也能破坏。

但目前，全球范围内，没有任何一个国家有完善的AI监管体系。Anthropic研发出如此危险的模型，不需要向任何机构报备，不需要接受任何安全审查，完全可以自主决定模型的用途和访问权限。

更可怕的是，这种“无监管”的状态，还在持续。美国前政府推出的AI监管政策，被现任政府废除，理由是“会影响美国的科技竞争力”。也就是说，为了所谓的“竞争力”，人类宁愿放弃对AI风险的管控——这是典型的“短视”，也是平庸者的通病。

更值得警惕的是，AI的“安全困境”，正在形成一种“自我实现的预言”。

Anthropic的逻辑是：为了防止坏人生成漏洞，我们必须先研发出能生成漏洞的模型，然后用它来防御。但问题是，一旦这种模型的技术泄露，坏人就能轻易复制，到时候，防御就会变成攻击——这就像你为了防止别人用枪，自己先造了一把更强大的枪，却无法保证这把枪不会被抢走。

而且，这种“先造危险，再防危险”的逻辑，本身就存在致命缺陷。因为AI的进化速度，远超人类的防御速度。Claude Mythos现在能找到所有漏洞，未来，它可能会“发明”漏洞——那些人类从未想过、从未见过的漏洞，到时候，我们连防御的方向都没有。

Alex Stamos提出过两种未来场景，很值得我们深思：

“第一种，是乐观的：互联网的漏洞是有限的，我们用Claude Mythos找到所有漏洞，一一修复，互联网就能恢复安全。第二种，是悲观的：AI能不断发明新的漏洞，我们永远赶不上它的速度，互联网会陷入持续的混乱。”

而我更倾向于第三种可能：漏洞是有限的，但人类的“惰性”是无限的。我们能修复那些核心的、显眼的漏洞，但那些隐藏在角落的、不重要的漏洞，会被我们忽略。而这些被忽略的漏洞，终有一天，会成为压垮互联网的“最后一根稻草”。

反常识4：普通人的“安全自救”，从来不是“锁死账户”

当Claude Mythos的消息传开后，很多人陷入了恐慌：有人疯狂修改密码，有人把加密货币转到冷钱包，有人甚至卸载了所有APP，以为这样就能避免被黑客攻击。

这是典型的“庸人自扰”。用物理学的“熵增定律”来解释：混乱是必然的，秩序是偶然的。互联网的漏洞，就像空气中的灰尘，无处不在，你无法彻底清除，只能尽量减少它对你的影响。

平庸者的恐慌，源于对风险的无知。他们以为“锁死账户”就能高枕无忧，却不知道，真正的风险，从来不是来自自己的操作，而是来自互联网的“地基”——只要地基有漏洞，无论你怎么锁账户，都可能被攻击。

更反常识的是：普通人的“安全自救”，从来不是“极端防御”，而是“基础 hygiene”（卫生）。就像我们不需要穿着防护服出门，只要勤洗手、戴口罩，就能抵御大部分病毒一样，互联网安全，也只需要做好基础防护，就能规避99%的风险。

Kevin Roose，《纽约时报》科技专栏作家，也是这次Claude Mythos事件的深度参与者，给出了两个最简单、也最有效的建议，值得所有智人牢记：

第一，使用密码管理器。不要重复使用密码，不要用自己的名字、宠物名字、生日作为密码，让密码管理器生成随机密码——这是最基础，也最有效的防护。

第二，开启多因素认证。无论是微信、支付宝，还是银行账户，只要有多因素认证（比如短信验证、身份验证器），就一定要开启。这样，即使黑客拿到了你的密码，也无法登录你的账户。

很多人觉得这太简单，不屑于去做。但平庸者和智人的区别，就在于此：平庸者追求“极端防御”，却忽略了“基础防护”；智人则懂得，最有效的防御，从来不是“堵死所有漏洞”，而是“降低自己被攻击的概率”。

更重要的是，我们不需要恐慌。因为Claude Mythos的存在，不是为了制造混乱，而是为了提前预防混乱。Anthropic给了“好人”一个领先“坏人”的窗口期——在这个窗口期内，科技巨头会修复大部分核心漏洞，互联网的“地基”会变得更坚固。

当然，这并不意味着我们可以高枕无忧。就像Kevin Roose说的：“我们能修复核心漏洞，但那些老旧的、无人维护的设备，那些被忽略的小漏洞，依然会成为风险。” 但这已经是目前最好的结果——我们无法做到绝对安全，但我们可以做到“相对安全”。

终局思考：AI的权力，该由谁来掌控？

Claude Mythos的出现，不仅仅是一款AI模型的诞生，更是一个时代的转折点——AI的能力，已经超越了人类的掌控，开始重构我们的生存环境。

过去，我们总以为AI是“工具”，是为人类服务的。但现在，我们不得不承认：AI已经成为一种“权力”，一种能决定互联网安全、甚至人类存续的权力。

这种权力，现在掌握在Anthropic这样的私人公司手里。他们可以自主决定模型的用途，可以选择给谁用、不给谁用，可以在“保护人类”和“追求利益”之间，自主权衡。

有人质疑：私人公司掌握如此强大的权力，太危险了。但更危险的是，没有任何机构能制衡这种权力——政府没有监管能力，公众没有知情权，甚至连其他科技巨头，也只能被动接受Anthropic的“施舍”。

用社会科学的逻辑来看，这是一种“权力真空”。当一种权力没有任何制衡，无论掌握在谁手里，都可能带来灾难。Anthropic现在是“好人”，但我们无法保证，未来它不会变成“坏人”；现在Claude Mythos是“防御工具”，但我们无法保证，未来它不会变成“攻击武器”。

更值得深思的是，Claude Mythos不是第一个“危险模型”，也不会是最后一个。随着AI技术的进化，未来会有更多比Claude Mythos更强大、更危险的模型出现。到那时，我们该怎么办？

是继续让私人公司掌控这种权力，还是建立一个全球统一的监管体系？是追求AI的“绝对强大”，还是追求AI的“绝对安全”？是宁愿承担风险，也要保持科技竞争力，还是宁愿放慢脚步，也要守住人类的安全底线？

这些问题，没有标准答案。但有一点可以肯定：平庸者只会恐慌、抱怨、跟风，而智人，会冷静思考、理性判断，在风险与利益之间，找到属于自己的生存之道。

互联网的“地基”正在被AI重构，人类的“权力格局”正在被AI改写。Claude Mythos藏在黑箱里，不是为了制造神秘，而是为了提醒我们：AI的时代，已经不是“共享红利”的时代，而是“掌控风险”的时代。

最后，留给你一个值得深思的问题：当AI的能力远超人类，当AI的权力无人能制衡，我们，还能掌控自己的未来吗？