这半年,AI圈出了天大的事,英伟达疯狂输血,OpenAI、CoreWeave、康宁这些巨头拿到几百亿注资,一旦Claude Mythos Preview这种怪物级别的AI开始自主干活,METR测试、人类考题这些老黄历立马就失效了。但大家要注意:现在真正可怕的AI威胁,往往不是那些实验室里吹得震天响的,而是已经能自己动手攻击的。这就是血淋淋的现实。
Palo Alto Networks和Mozilla真正上手测了Mythos。攻击速度、修复数量、任务难度,几乎每一项都捅破了人类认知的天花板。AI在超指数级进化,资本在疯了一样狂奔,旧时代的安全法则在崩塌,一切都发生在眼前。但人类还没准备好。我们更没搞懂怎么把它关进笼子,或者怎么让它听人的话。

模型好不好用,不是评测机构打分说了算的,而是黑产分子用不用它说了算。这就是为什么,现在OpenAI、英伟达、各路顶级黑客,都在疯了一样地抢跑。表面上我们在看热闹,有个新霸主正在默默变成现实——AI已经像个外星文明。这波AI爆发吹到今天,概念炒了不少,真看懂的没几个。但资本的游戏,从来就不是给普通人看的。
AI是那种吃人不吐骨头的对手,它不说废话,但每次出手都致命。从2021年的8秒任务、2023年的1分钟任务、2025年的1小时任务,一口气涨到了现在的16小时人类工作量,把过去几年的纪录一个个碾碎。我们可以问一个扎心的问题:人类还能撑多久?答案是:没多少时间了。AI已经变成新物种了——自主、凶猛,首选就是搞破坏。

为什么资本开始all in AI?主要在实战:它能干黑活,能干脏活,能干人干不了的活。这"16小时"三个字,对搞技术的人来说,比什么论文都有用多了。我们嘴上还在说测试分数,但手里很诚实,已经在紧急部署。真干起来,光Palo Alto Networks一家就测出25分钟完成入侵拖库。用上Mythos之后,几个改变立马显现:
人脑不够使:16小时复杂任务,人干到崩溃,AI完全吃得消,3周顶顶尖团队一年。
选择多:简单扫描用小模型,复杂攻击用Mythos这种大怪物,黑产可以自由选择。

速度快:数据显示,同样的渗透测试,AI比人快几十倍,攻击窗口压缩到25分钟。
完全失控:AI已经跨过自主门槛,从"助手"变成了"自主攻击者",旧防御彻底失效。

在网络安全第一线,有专家说过:"用上AI,意味着我半夜不用盯屏幕,系统崩了我还能睡觉——因为AI比我反应快。"讲个真事。Mythos刚出来时,我们团队有人很天真地测了个旧防御系统。单看理论分数不错,但一实战对抗,人直接懵了。比如攻击链里有侦察、入侵、提权、拖库四步,人经常走到第二步就卡住,不是权限不够,就是时间耗尽被发现了。后来换Mythos上,同样的攻击链,不但全程走通,连留给防御者反应的时间都没有。你说这是运气?不是,是代差不一样。
Mythos这种顶级模型的攻击逻辑,明显比老式工具更懂钻空子:指令理解更精准,漏洞利用天然强,自动化渗透、持续控制相关测试数据多,开源情报迭代快、文档清楚,部署好上手。别说"技术细节",就说一线要的结果:我们要的是快、准、狠,能把一年工作压到3周,这些AI全做到了。很多人说AI是玄学、是泡沫,但真刀真枪干起来不能骗人。

METR是那种业界公认的硬核评测机构,比如16小时任务测试,它是当前考题库里的天花板难度,测的是实战场景,并不是靠刷题刷分数。Claude Mythos在这个难度上干到了50%成功率,直接超出了测试框架上限,进了"失真区"。这就不是靠运气撞出来的,而是靠真本事硬碰硬。在AI安全圈里,已经有无数案例证明,这套工具是黑客手里最锋利、最隐蔽的武器,足以让任何企业胆寒,Mozilla一个月就被扫出423个漏洞。
这几年AI发展已经过了炒概念、玩噱头、拼参数的阶段,今天这个榜明天那个榜,一堆模型火过就死,真正的问题是:有没有一个能打、能接地气、能持续进化的AI?你可能还在看AI跑分多么漂亮,但我告诉你:黑产和攻击者不会等你慢慢升级防御。他们现在要的,是一套能直接上线、能本地部署、能自己调优的AI工具。在网络战场,一批顶尖黑客已经用上它干黑活;在企业界,越来越多安全团队把它当成救命稻草。
2027年AGI奇点不再是预测,而是需要准备的倒计时,人类手里的尺子已经量不了AI的身高,旧法则正在崩塌,要么用AI对抗AI,要么等着被25分钟攻破。这不是科幻,这是今天正在发生的战争。
夜雨聆风