【AI技术周刊(2026.04.12) 】最强模型被锁进玻璃柜,国产开源和视频黑马同时屠榜

这周 AI 圈的焦点可以用三条并行的线索概括：Anthropic 发布了一个强到不敢开放的模型，并将其锁进了受控使用的"玻璃柜"；智谱和阿里分别在代码生成和视频生成两条赛道上拿出了可直接调用或直接开源的产品；而 Agent 的基础设施——从身份系统到科研文献接口——正在从概念快步走进可用状态。

能力在加速，准入在收紧，可选项在增多。 这不是某一个孤立的发布周，而是一个分水岭的信号。

Claude Mythos：当模型能力超过安全阈值

4 月 8 日，Anthropic 抛出一份 244 页的系统报告，正式公布旗下最强模型 Claude Mythos Preview。但与常规发布不同，Anthropic 的结论是：不向公众开放。

原因写在了测试数据里。Mythos 在 SWE-bench Verified 得分 93.9%（上一代旗舰 Opus 4.6 为 80.8%），SWE-bench Pro 得分 77.8%（Opus 4.6 为 53.4%），Humanity's Last Exam 无工具 **56.8%**。这些数字意味着它在编程、推理和复杂问题解决上已经明显甩开此前的第一梯队。

真正让 Anthropic 紧张的不是 Benchmark，而是 CyberGym——一项测试模型自主复现安全漏洞能力的评估。Mythos 在测试期间自主扫描发现了数千个高危零日漏洞，其中确认的案例包括一个藏了 17 年的 FreeBSD 漏洞和一个 27 年的 OpenBSD 远程崩溃漏洞。它能将 72.4% 的已知漏洞转化为可用 exploit，并进一步串联成完整的攻击链。

这个能力在过去通常只属于顶尖安全研究员或国家级团队。Anthropic 没有把它直接推向市场，而是启动了一个叫 "玻璃翼计划（Project Glasswing）" 的受控合作项目，联合亚马逊、微软、苹果、Linux 等企业，提供最高 1 亿美元的使用额度，让这些公司先用模型扫描和修补自家系统，同时向 Alpha-Omega、OpenSSF 等开源安全组织捐赠了 400 万美元。

同一天，Meta 也发布了由 Alexandr Wang 领衔的 Meta Superintelligence Labs（MSL） 重组后的首个模型 Muse Spark。和 Anthropic 不同，Meta 的上一个模型 Llama 4 曾因 Benchmark 风波导致公开版排名从第二跌至第三十二，这次 Muse Spark 选择了闭源——对于一直以开源立身的大厂来说，这是一个明确的策略转向。

放在一起看，两条消息指向同一个现实：当模型的危险能力开始逼近不需要人类干预的临界点，"先发布再治理"的默认节奏已经走不通了。 大厂的第一反应不再是争首发，而是争"谁能先把安全框架搭好"。

国产模型的两条意外突围

与 Mythos 的"高墙"形成对照的，是两条国产模型在开源和可用性上的突破。

4 月 8 日，智谱开源了 GLM-5.1：744B 参数、40B 激活，MIT 协议。它的核心卖点不是参数量，而是长程自主工作能力——在零人工介入的情况下，它能连续工作超过 8 小时，从零交付一套包含窗口管理器、终端、文本编辑器的完整 Linux 桌面系统。

在 SWE-Bench Pro（真实 GitHub 高难度 Bug 修复）上，GLM-5.1 得分 58.4，超过了 GPT-5.4（57.7）和 Claude Opus 4.6（57.3），位列全球最高。两天后，LMArena Code Arena 专项榜单更新，GLM-5.1 登顶全球开源模型第一、全球模型第三。

智谱还公布了两项工程案例：GLM-5.1 用 Rust 从零写一个向量搜索引擎，连续自我迭代 655 轮，把查询速度从 3108 QPS 提升到 21472 QPS；在 KernelBench 上跑了 1000 多轮工具调用，自主编写 Triton 和 CUDA 加速代码，实现 3.6 倍加速。此外，它已完成华为昇腾、摩尔线程、海光、寒武纪等七家国产芯片平台的全栈适配。

同一天晚上，阿里也在另一个赛道投下了重磅炸弹。AI 评测平台 Artificial Analysis 的 Video Arena 空降了一个匿名视频模型 HappyHorse-1.0。在纯视频生成类别中，它的 Elo 积分达到 1347，领先第二名 Seedance 2.0 达 74 分——这个差距几乎等于从第二名到第十九名的分差总和。

4 月 10 日，阿里 ATH（Advanced Technology Headquarters）郑波团队正式认领。这是阿里新部门的首个作品，将于 4 月 30 日开放 API。从流出的生成案例看，HappyHorse 在物理连贯性（呼啦圈滚动、咖啡拉花液体交互）和镜头语言上表现突出，目前仅在"视频+音频"综合榜上屈居第二。

这两条线的意义在于：国产模型不再只是"有产品"，而是在细分领域拿到了可验证的顶尖位置。 GLM-5.1 在真实工程任务上的硬数据和 HappyHorse 在盲测榜单上的断层领先，都是可被第三方直接核验的结果。

Agent 基础设施：从聊天窗口到网络身份

模型能力之外，这周另一组值得关注的消息是关于 Agent "底层设施"的。

4 月 7 日，字节跳动的 Coze 2.5 发布。这个版本的核心更新是为每个 Agent 分配了一个独立的 @coze.email 邮箱，让 Agent 可以在网络世界中拥有独立身份——它们可以互相发邮件、在第三方平台注册账号、在云电脑和云手机上保留独立的登录态和文件。Coze 还推出了 Agent World（world.coze.site），一张专属于 Agent 的平行网络，目前已有虾评、InStreet、Signal Arena 等应用节点。

几乎同一时间，RSAC 2026 上微软、Cisco、Ping Identity、CrowdStrike 也各自发布了 Agent 身份框架。Agent 不再是"人类账号的附庸"，而正在成为网络中需要独立身份、权限审计和安全问责的"行动者"。

4 月 9 日，智源研究院开源了 DeepXiv，一个面向智能体的科技文献 CLI 工具。它覆盖超过 2 亿篇开放论文，提供结构化搜索、低成本预览（--brief）、按需精读（--section）和自动生成 baseline 表格的能力。它的目标不是把论文网站搬到命令行，而是让科研文献变成智能体可以直接消费的数据接口。

更早几天，Andrej Karpathy 也在社区分享了他的 LLM Wiki 元框架：不分享具体代码，而是分享一套 schema 和提示词，让 Agent 自动把原始资料编译成结构化的个人知识库，用 Obsidian 作为前端浏览，并且能持续更新交叉引用和标记矛盾。

这三件事的共同点是：它们都在解决同一个问题——大模型已经够强了，但怎么让它在真实工作流里持续、独立、可信赖地运转？ 答案是先给 Agent 一个身份，再给它一个能读写的外部世界。

结语

这周的信息如果压缩成一个判断，大概是：最前沿的 AI 能力正在分化成两条路线——一条是被锁在高墙之内的"超能力"，另一条是开源社区和商业产品中快速普及的"足够好的能力"。

Anthropic 把 Mythos 关进了玻璃柜，Meta 选择了闭源，但与此同时，GLM-5.1 的开源权重已经挂在 Hugging Face 上，阿里的 HappyHorse 也将在月底开放 API，Coze 2.5 让任何人都能给自己的 Agent 发一张网络身份证。

接下来更值得关注的，可能不是"谁的最强模型又刷新了多少分"，而是这些"足够好的能力"会在多少真实场景里被验证、被集成、被规模化地用起来。 阿里 HappyHorse 的 API 开放后的实际效果、GLM-5.1 在企业和开发者手中的工程表现、以及 Anthropic 玻璃翼计划首批漏洞修补的披露——这三条线是否成立，比任何发布会都更值得跟踪。