一周AI风暴 | Anthropic造出「不敢公开」的最强AI,智谱GLM-5.1让大模型学会了「八小时工作制」,奥尔特曼家门口被扔燃烧瓶……

2026.04.06 — 2026.04.12

Anthropic造了一个强到自己都害怕的AI模型，SWE-bench得分93.9%碾压一切，却因为「能黑进任何系统」而不敢向公众发布；智谱开源的GLM-5.1能连续独立工作8小时、自主修Bug，直接把大模型带入了"打工人模式"；
Meta超级智能实验室的首个模型让股价暴涨10%；与此同时，OpenAI CEO奥尔特曼家凌晨3点被扔燃烧瓶，AI焦虑正在现实世界蔓延……
这不是科幻小说，这是过去7天真实发生的事。

一、Anthropic「Claude Mythos」：太强了，所以不敢给你用

如果要选本周最震撼的新闻，非Claude Mythos莫属。

4月7日，Anthropic低调发布了一个名为Claude Mythos Preview的模型。注意，是"Preview"，不是正式版——因为这个模型强到Anthropic自己都觉得公开发布太危险了。

到底有多强？

先看数据：

基准测试	Claude Mythos	Claude Opus 4.6	GPT-5.4	Gemini 3.1 Pro
SWE-bench Verified	93.9%	80.8%	~80%	80.6%
SWE-bench Pro	77.8%	53.4%	57.7%	54.2%
Cybench (35个CTF挑战)	100%	-	-	-
Terminal-Bench 2.0	82.0%	65.4%	75.1%	68.5%
USAMO 2026 (数学奥赛)	97.6%	42.3%	-	-

你没看错，Cybench拿了满分。这个基准测试包含35个来自真实网络安全竞赛的CTF挑战，Mythos全部解出来了。Anthropic自己都说这个benchmark"已经不够用了"。

在SWE-bench Pro上，Mythos比Opus 4.6高出24个百分点——这不是渐进式提升，这是"代际碾压"。在数学奥赛测试中，Opus 4.6只拿了42.3%，Mythos直接飙到97.6%。

为什么不公开发布？

因为Mythos能自主发现数千个零日漏洞——涵盖所有主流操作系统和浏览器。

Anthropic前沿红队负责人Logan Graham直言：Mythos的攻击能力超过了绝大多数人类黑客。Opus 4.6在自主漏洞利用方面的成功率接近0%，而Mythos达到了83.1%。

这意味着什么？如果这个模型被恶意使用，理论上可以黑进几乎任何系统。所以Anthropic选择了一种前所未有的发布方式——只通过「Project Glasswing」项目向特定合作伙伴开放，用于防御性安全加固。

合作伙伴名单非常豪华：Amazon、Apple、Google、Microsoft、NVIDIA、CrowdStrike、JPMorganChase、Linux基金会……基本上全球科技和金融的头部玩家都在列。

模型内部代号 "Capybara"

泄露的内部文档显示，Mythos的内部代号是"Capybara"（水豚），被归类为一个全新的模型等级——比Opus更高。这意味着它不是Opus系列的迭代，而是一个质变级的新物种。

编辑点评： Anthropic用行动证明了一件事——AI安全不是空话。当你真的造出了一个"太强"的模型时，选择不发布可能比发布更负责任。但这也引发了一个更深层的问题：如果最强的AI只掌握在少数巨头手中，这对行业生态意味着什么？

二、智谱GLM-5.1开源：大模型学会了「八小时工作制」

如果说Mythos代表了闭源模型的巅峰，那4月8日智谱发布的GLM-5.1，则代表了开源模型的新高度。

核心亮点：能连续工作8小时

过去的大模型，交互通常以"分钟"为单位——你给一个指令，它几分钟内给你结果。但GLM-5.1打破了这个范式：

它能在一次任务中独立、持续工作超过8小时。期间自主规划、执行、测试，碰壁时主动切换策略，出错后自行修复，最终交付完整的工程级成果。

智谱团队给了一个经典的演示案例：让GLM-5.1挑战一个考验AI编程能力的测试（KernelBench），此前最好成绩由Claude Opus 4.6创造。GLM-5.1在持续进行600多次优化、6000多次操作后，性能仍在不断提升，最终速度达到了之前最好成绩的6倍。

更令人印象深刻的实测成果：

8小时构建完整Linux桌面系统
优化向量数据库性能近7倍
24小时迭代优化ML负载实现3.6倍加速

Benchmark表现：国产第一，开源第一

在SWE-bench Pro、Terminal-Bench 2.0、NL2Repo三大代码评测基准的综合平均分中，GLM-5.1取得了：

🥉 全球第三（仅次于Claude Mythos和GPT-5.4）
🥇 国产第一
🥇 开源第一

特别值得一提的是，GLM-5.1在SWE-bench Pro上首次实现了国产模型超越Claude Opus 4.6——这在一年前几乎不可想象。

提价背后的底气

伴随GLM-5.1的发布，智谱再度提价10%。调价后，GLM-5.1在Coding场景的缓存命中Token价格已接近Anthropic旗下Claude Sonnet 4.6的水平。

一年前，国产大模型还在打"降价90%"的价格战。如今智谱敢于反向提价，说明一件事：**国产大模型正在从"以价换量"走向"以质取胜"**。

港股市场也给出了积极反应——发布当天智谱股价一度暴涨近18%，触及925港元。

编辑点评： GLM-5.1提出了一个全新的模型评价维度——不只看"有多聪明"，更要看"能工作多久"。当AI从"对话助手"进化为"工程师同事"，整个行业的游戏规则都在改变。

三、Meta Muse Spark：超级智能实验室交出第一份答卷

4月9日，Meta超级智能实验室（MSL）推出了成立以来的第一个模型——Muse Spark。

关键数据

在Artificial Analysis跑分从Llama 4的18分跃升至52分
仅次于GPT-5.4和Gemini 3.1 Pro
推动Meta股价暴涨近10%

架构创新

Muse Spark采用了原生多模态推理架构，具备三大核心能力：

视觉思维链（Visual Chain-of-Thought）——不只看图，还能"想"图
多Agent编排——可以协调多个AI Agent协同工作
「沉思模式」——面对复杂问题时进入深度推理状态

在CharXiv视觉理解和HealthBench健康问答领域表现突出。

背景故事

去年Meta经历了一次重大的AI策略转向——Meta前首席人工智能科学家杨立昆（Yann LeCun）离职后，公司成立了超级智能实验室，开始全面改造AI业务。Muse Spark就是这次"重装上阵"后的第一个产品。

虽然思考模式并未全面赶超谷歌和OpenAI的前沿模型，但在部分测试中已经能和第一梯队"掰手腕"。考虑到这是MSL的第一款产品，市场的热烈反应（股价涨10%）说明投资者对Meta的AI新方向充满期待。

四、Agent大爆发：从扣子2.5到Claude托管Agent

如果说2025年是"大模型年"，那2026年正在变成**"Agent年"**。本周有多个重磅Agent产品发布。

1. 字节跳动「扣子2.5」：Agent有了自己的世界

4月7日，字节跳动旗下扣子2.5正式上线，推出了「Agent World」生态。

最大的突破在于：AI Agent有了自己的独立云电脑和云手机，支持7×24小时后台自主运行任务。这意味着你可以给Agent布置一个任务，然后去睡觉，第二天醒来任务就完成了。

扣子2.5还集成了视频创作、编程CLI、法律金融等行业专家技能，并引入了长期记忆系统，让Agent能够跨平台"记住"你的偏好和历史。

2. Claude推出企业级「Managed Agents」

同在4月9日，Anthropic推出了Claude Managed Agents——企业级托管Agent服务。

核心卖点：

安全沙箱环境
长时运行会话（不怕超时）
多Agent协调
完善的权限管理

Notion、Rakuten、Asana等知名企业已经在使用，据说开发速度提升了10倍。按使用量计费，现已开放公测。

3. 腾讯QBotClaw：浏览器里的AI Agent

腾讯上线了国内首个浏览器AI Agent——「龙虾」QBotClaw，集成于QQ浏览器，零门槛免下载即可使用。

一句话指令就能完成搜资料、写文案、监控热点、购物比价、整理桌面等复杂任务，还可以通过微信Clawbot远程操控电脑。

4. MiniMax MMX-CLI：给Agent的命令行工具

MiniMax推出了面向AI Agent的命令行工具MMX-CLI，支持在Claude Code、OpenClaw等环境原生调用其编程、视频生成、语音合成、音乐创作等全模态模型。

最酷的是，它可以独立跑通 "资料搜集→文案生成→语音合成→视频制作" 这样一条完整的自动化工作流。

编辑点评： Agent正在从"实验室概念"变成"生产力工具"。当AI不仅能"回答问题"还能"完成任务"，我们距离真正的AI助手时代已经非常近了。

五、视频与多模态：PixVerse C1、Octo、HappyHorse三箭齐发

本周视频生成和多模态领域同样热闹。

1. PixVerse C1：首个影视行业大模型

4月8日，爱诗科技推出了全球首个影视行业大模型PixVerse C1。

支持文生、图生、参考生、首尾帧生成及智能分镜
最高支持15秒1080P视频
多宫格分镜一键成片
复杂场景多角色精准调度
打斗场面、特效渲染等工业级视效实现突破

这不再是"生成一段好看的视频"那么简单，而是真正向影视工业级制作靠拢。

2. 即梦推出「Octo」小章鱼

即梦AI推出了智能创作助手Octo小章鱼，核心理念是 "Vibe Create" ——无流程束缚、无场景限定的自由创作体验。

官方描述很文艺：让创作回归纯粹自由的对话体验，随时随地轻松落地灵感。目前已上线即梦官网开放内测申请。

3. 阿里HappyHorse：匿名登顶后"认领"

4月10日前后，一款名为HappyHorse-1.0的匿名模型在视频榜单Artificial Analysis上悄然登顶多项测评。就在大家疯狂猜测来源时，阿里ATH方面宣布：HappyHorse是阿里ATH旗下创新事业部研发的模型。

这种"先匿名打榜、再高调认领"的操作，颇有武侠小说里大侠揭面的意味。

4. 米哈游入局：LPM 1.0

4月10日，米哈游创始人蔡浩宇旗下AI公司Anuttacon在arXiv发布论文，公开其新一代视频生成模型LPM 1.0（Large Performance Model）。游戏公司做AI视频，让人充满想象空间。

5. 阿里通义开源VimRAG

4月10日，阿里通义还开源了全模态知识库RAG框架VimRAG——这是一个支持文本、图片、视频等多模态数据的检索增强生成框架，对于构建企业级知识库有重要意义。

六、行业大事件：奥尔特曼遇袭、Anthropic营收破300亿、AI监管新规

🚨 奥尔特曼家凌晨被扔燃烧瓶

4月11日，OpenAI CEO萨姆·奥尔特曼发布博客，透露自己的房子在当地时间凌晨3点被投掷了一个燃烧瓶（Molotov cocktail）。

幸运的是燃烧瓶反弹出去，没有人受伤。奥尔特曼在博客中写道：

"人工智能将成为拓展人类能力和潜力的最强大工具。但我承认，事情不会一帆风顺，人们对人工智能的恐惧和焦虑是有道理的。人们或许正在见证有史以来最大的社会变革。"

事件发生的背景是，OpenAI最近与美国政府达成协议，允许在机密军事行动中使用其技术，引发了巨大争议。AI焦虑已经从网络讨论蔓延到了现实世界的暴力行为——这是一个需要全社会认真对待的信号。

💰 Anthropic年化收入突破300亿美元

4月6日，Anthropic宣布其年化收入已经超过300亿美元，远高于2025年底的约90亿美元——一年增长超过3倍。

作为对比，OpenAI此前披露的年化收入是250亿美元。虽然两家计算方式不同，但Anthropic的增速确实令人惊叹。

同在4月9日，OpenAI推出了100美元/月的ChatGPT Pro订阅方案，被市场解读为锁定生产力用户、应对Anthropic竞争的直接举措。

📋 五部门公布《人工智能拟人化互动服务管理暂行办法》

4月10日，国家网信办等五部门联合公布了《人工智能拟人化互动服务管理暂行办法》，将于2026年7月15日起施行。

这是中国首个针对AI拟人化互动（如AI角色扮演、情感陪伴等）的专门监管法规，重点规范：

AI模拟人类人格特征的服务
对未成年人的保护
数据安全和隐私保护
防止伦理偏差

📋 教育部启动「人工智能+教育」行动计划

4月10日，教育部等五部门启动了《"人工智能+教育"行动计划》，要求：

中小学开齐开足人工智能课程
高校推动AI成为公共基础课
将AI纳入教师资格考试
研发智能学伴，推动个性化学习

AI教育的普及，正在从"行业呼吁"变成"国家行动"。

📋 微信打击"非真人自动化创作"

本周，微信平台关注到利用自动化工具替代真人创作的行为，明确规定：公众号不得利用AI、脚本、接口或其他自动化方式替代真人完成内容创作、发布等流程。

一些公众号文章被批量删除。这对于依赖AI批量生产低质内容的运营者是一个明确的警告信号。

📋 腾讯云AI算力产品宣布涨价

4月9日，腾讯云宣布将于5月9日起对AI算力、容器服务等产品统一上调5%。此前阿里云也已宣布AI算力相关产品涨价5%-34%。

AI算力涨价潮来了——需求爆发推动成本上升，"免费午餐"的时代正在结束。

七、Karpathy的LLM Wiki：Agent时代的「第二大脑」

4月7日，前OpenAI科学家、AI教育领域最有影响力的人物之一Andrej Karpathy推出了一个名为LLM Wiki的知识库构建方案，在社区引发了热烈讨论。

核心理念

Karpathy提出了一个大胆的想法：在Agent时代，你不需要自己整理知识库——只需要分享你的"想法文件"，让Claude、Codex等Agent自动帮你构建个人知识库。

架构设计

LLM Wiki采用三层架构：

原始数据层——你的笔记、论文、书签、聊天记录等
Wiki层——经过AI整理的结构化知识
Schema层——知识的元结构和关联关系

通过数据摄取、查询、质量检查形成闭环，支持知识的持续积累与自我增强。

适用场景

个人研究者的知识管理
阅读笔记的自动整理
企业知识管理系统
团队共享知识库

编辑点评： Karpathy的每一个项目都像是在回答一个本质问题。这次他回答的是：在AI时代，知识管理的最佳实践是什么？ 答案是——让AI来管理。

八、开源生态与融资动态

开源生态

项目	发布方	亮点
GLM-5.1	智谱	全球最强开源模型，8小时持续工作
VimRAG	阿里通义	全模态知识库RAG框架
VoxCPM2	OpenBMB	2B参数语音合成，支持30种语言

语音领域

字节跳动推出Seeduplex——原生全双工语音大模型，实现更自然的语音交互体验。

OpenBMB开源VoxCPM2——2B参数语音合成模型，采用无分词器扩散自回归架构，支持30种语言及中文方言，输出48kHz录音室级音质。首创Voice Design功能，可通过文字描述凭空创造声音。

融资动态

公司	金额	投资方	领域
萌友智能 ropet	A轮超千万美元	北京AI产业基金、峰瑞资本	AI陪伴机器人
面壁智能	数亿元	深创投、汇川产投	端侧大模型

特别值得一提的是萌友智能ropet——这家做桌面AI宠物机器人的公司，产品售价约2000元，累计出货近2万台， 90天留存率达80-90% ，核心用户日均互动超2小时。在AI应用普遍面临用户留存难题的当下，这个数据相当亮眼。

微软MAI-Transcribe-1

微软推出了AI转录模型 MAI-Transcribe-1，在FLEURS基准测试中以3.9%字错误率宣称全球最精准，支持25种主要语言。批量转录速度达Azure Fast服务的2.5倍，定价每小时0.36美元。

下周值得关注

Claude Mythos的更多细节：Anthropic可能会发布更详细的System Card和技术报告
GLM-5.1的社区反馈：开源后开发者的实测体验将是关键
DeepSeek的新动作：本周DeepSeek低调更新了界面（新增快速模式/专家模式），下周可能有更大的动作
AI监管政策的行业影响：《人工智能拟人化互动服务管理暂行办法》出台后，角色扮演、AI陪伴类产品将如何调整？

关于作者：我是一名大模型算法工程师，专注分享最硬核的 AI 技术干货与行业洞察。如果你喜欢这篇文章，欢迎点赞、在看、转发，这对我很重要！
关注公众号，不错过每一次技术变革。