AI已不只是工具——这周发生的5件事,让这句话变得更真

如果你上周还觉得"AI还只是聊天机器人"，这周的新闻应该能让你重新思考一下。

从一个"危险到不能发布"的黑客模型，到一个可以连续自主工作8小时的开源大模型；从英伟达把芯片垄断悄悄延伸到软件层，到一家公司裁员4000人后交出第一份AI答卷——2026年4月第二周，AI世界发生了几件值得认真记录的事。

01. Anthropic造了个"太危险"的模型，但没有销毁——而是只给防御方用

Claude Mythos Preview + Project Glasswing

Anthropic这周做了一件很有意思的事：他们宣布了一个自己都说"危险到不能公开"的模型，同时宣布这个模型已经开始为Amazon、Apple、Google、Microsoft、CrowdStrike等12家科技和金融巨头修漏洞了。

Claude Mythos Preview的网络安全能力堪称恐怖。它已经自主发现了数千个高危零日漏洞，包括：OpenBSD中一个存在27年从未被人发现的漏洞，可以让攻击者仅仅通过发起连接就远程崩溃任何运行该系统的机器；FFmpeg中一个16年的漏洞，自动化测试工具运行了500万次都没发现它；以及Linux内核中若干漏洞的组合利用，可从普通用户权限一路提权到完全控制系统。

Anthropic的选择是：不发布给公众，而是通过"Project Glasswing"计划，以受控方式向防御方开放。这是一种奇特的逻辑——因为模型太强大所以不能开放，但又因为威胁太紧迫所以必须用起来。Anthropic的人说得很直接："再过几个月，类似能力就可能扩散到不负责任的人手里。"

这背后还有一个值得关注的数字：Anthropic的年化营收已突破300亿美元，较2025年底的90亿增长了3倍多。AI安全+AI能力，已经是一门巨大的生意。

02. 开源模型第一次真正打赢了：GLM-5.1能连续自主工作8小时

Z.ai发布GLM-5.1

中国AI公司Z.ai（旗下GLM系列）这周投下了一枚重磅炸弹：GLM-5.1，一个754B参数的MoE开源大模型，MIT协议，可在HuggingFace下载。

它最引人注目的地方不是参数量，而是持续工作时长：该模型可以连续自主工作最长8小时，完成超过1700步工具调用，而上一代模型的上限约为20步。

更重要的是基准测试结果。在衡量真实世界GitHub问题解决能力的SWE-Bench Pro上，GLM-5.1拿到58.4分，超过GPT-5.4的57.7和Claude Opus 4.6的57.3——一个开源模型在代码能力上打赢了闭源旗舰。

Z.ai的CEO用一个具体案例来展示它的威力：让GLM-5.1优化一个高性能向量数据库，经过655次迭代、6000次工具调用，最终性能从每秒3547次查询提升到21500次查询——提升6倍，而且每次遇到瓶颈，模型都能自己诊断原因、调整策略、继续优化。

这意味着什么？AI不再只是"帮你写代码"，而是可以被当成一个工程师，把项目交给它，8小时后来取成果。

03. 英伟达的下一步棋：把AI Agent的操作系统也变成自己的

GTC 2026：Nvidia Agent Toolkit

英伟达CEO黄仁勋在GTC 2026的发布会上，列出了一份让人叹气的名单：Adobe、Salesforce、SAP、ServiceNow、Siemens、CrowdStrike、Atlassian……共17家全球顶级企业软件公司，都将在Nvidia的Agent Toolkit上构建下一代AI产品。

Agent Toolkit本身是开源的，包含：为Agent推理优化的开源模型家族Nemotron；企业知识感知推理蓝图AI-Q；策略化沙箱安全运行时OpenShell；以及优化算法库cuOpt。

表面上看，英伟达在"免费送软件"。但理解了CUDA的历史你就会明白这不是慈善——这些软件在Nvidia GPU上运行效果最佳，会自然催生对Nvidia硬件的持续需求。这和Google把Android免费开放、然后靠应用商店和广告赚钱，是同一个逻辑。

英伟达正在把整个企业AI Agent的基础设施变成自己的领地。 等所有Salesforce的Agent都跑在Nemotron上、所有SAP的工作流都通过OpenShell编排，那才是真正的"护城河"。

同场发布的还有Vera Rubin新芯片平台（号称较Blackwell推理吞吐量提升10倍、每token成本降低90%）和Dynamo 1.0推理操作系统，AWS、Azure、Google Cloud都已采用。

04. Jack Dorsey裁员4000人后，交出了第一份AI账单

Block发布Managerbot

今年2月，Block（旗下有Square和Cash App）宣布裁员4000人——近乎砍掉一半员工——并明确表示原因是AI。这在硅谷引发了巨大争议：这是第一次有主流科技公司如此直白地说"AI替代了这些人"。

这周，Block发布了Managerbot，那些被裁员工做的事，部分答案来了。

Managerbot是嵌入Square商业平台的主动型AI Agent，专为小企业主设计。它不是聊天机器人——你不需要问它问题，它会主动监控你的生意，在库存不足前提前预警并建议补货（结合天气、本地活动等外部信号）；自动生成优化的员工排班表；自动分析销售趋势并起草营销活动。

最关键的设计决策：所有写操作（修改排班、发布营销等）都需要商家人工确认，而且界面会提前展示变更预览，不是光说不给看。这个"人在回路"的设计，反映了Block在金融领域的谨慎——他们去年刚被48个州监管机构罚款8000万美元，因为Cash App存在反洗钱合规问题。

Block首席产品官说得很坦率："我们希望Managerbot是你生意的守护者，不是一个答题机器。"

05. 学术突破：AI Agent可以自己改写自己的技能库了

Memento-Skills框架

这条可能没有前面几条"爆"，但对未来AI Agent架构的影响可能是最深远的。

多所大学研究者本周发布了Memento-Skills框架，解决了一个困扰AI Agent部署的核心问题：模型部署后能力就固化了，想让它学新东西只能重新训练，成本极高。

Memento-Skills的思路是给Agent一个"外部技能库"——结构化的markdown文件，包含技能说明、执行提示和可运行代码。Agent每次执行任务后，系统会反思结果：如果失败，自动重写相关技能代码；如果成功，强化这个技能的路由权重。整个过程有单元测试门控，不能把有bug的代码写进技能库。

测试结果很有说服力：在GAIA综合推理基准上，准确率从52.3%提升到66.0%；在Humanity's Last Exam专家级测试上，从17.9%提升到38.7%（直接翻倍）。两项测试都只用了5个种子技能起步，系统分别自主扩展到41个和235个技能。

这意味着什么？未来部署AI Agent，它可以在执行真实业务的过程中不断自我进化，无需人工介入重新训练——像一个真正会从工作经验中成长的员工。

总结

这一周，AI世界几乎每条新闻都在说同一件事：AI已经不只是工具，它正在成为主体。

Mythos Preview可以自主破解世界上最安全的操作系统；GLM-5.1可以独自工作8小时完成一个工程项目；Managerbot主动替商家盯着库存和排班；英伟达要让所有企业Agent都跑在自己的生态里；而Memento-Skills则要让Agent自己学会进化。

你现在问的问题不应该是"AI能做什么"，而是"我应该怎么重新组织我的工作流，才能把这些能力用起来"。