2026.04.06 — 2026.04.12
Anthropic造了一个强到自己都害怕的AI模型,SWE-bench得分93.9%碾压一切,却因为「能黑进任何系统」而不敢向公众发布;智谱开源的GLM-5.1能连续独立工作8小时、自主修Bug,直接把大模型带入了"打工人模式";
Meta超级智能实验室的首个模型让股价暴涨10%;与此同时,OpenAI CEO奥尔特曼家凌晨3点被扔燃烧瓶,AI焦虑正在现实世界蔓延……
这不是科幻小说,这是过去7天真实发生的事。

一、Anthropic「Claude Mythos」:太强了,所以不敢给你用
如果要选本周最震撼的新闻,非Claude Mythos莫属。
4月7日,Anthropic低调发布了一个名为Claude Mythos Preview的模型。注意,是"Preview",不是正式版——因为这个模型强到Anthropic自己都觉得公开发布太危险了。
到底有多强?
先看数据:
| SWE-bench Verified | 93.9% | |||
| SWE-bench Pro | 77.8% | |||
| Cybench (35个CTF挑战) | 100% | |||
| Terminal-Bench 2.0 | 82.0% | |||
| USAMO 2026 (数学奥赛) | 97.6% |
你没看错,Cybench拿了满分。这个基准测试包含35个来自真实网络安全竞赛的CTF挑战,Mythos全部解出来了。Anthropic自己都说这个benchmark"已经不够用了"。
在SWE-bench Pro上,Mythos比Opus 4.6高出24个百分点——这不是渐进式提升,这是"代际碾压"。在数学奥赛测试中,Opus 4.6只拿了42.3%,Mythos直接飙到97.6%。
为什么不公开发布?
因为Mythos能自主发现数千个零日漏洞——涵盖所有主流操作系统和浏览器。
Anthropic前沿红队负责人Logan Graham直言:Mythos的攻击能力超过了绝大多数人类黑客。Opus 4.6在自主漏洞利用方面的成功率接近0%,而Mythos达到了83.1%。
这意味着什么?如果这个模型被恶意使用,理论上可以黑进几乎任何系统。所以Anthropic选择了一种前所未有的发布方式——只通过「Project Glasswing」项目向特定合作伙伴开放,用于防御性安全加固。
合作伙伴名单非常豪华:Amazon、Apple、Google、Microsoft、NVIDIA、CrowdStrike、JPMorganChase、Linux基金会……基本上全球科技和金融的头部玩家都在列。
模型内部代号 "Capybara"
泄露的内部文档显示,Mythos的内部代号是"Capybara"(水豚),被归类为一个全新的模型等级——比Opus更高。这意味着它不是Opus系列的迭代,而是一个质变级的新物种。
编辑点评: Anthropic用行动证明了一件事——AI安全不是空话。当你真的造出了一个"太强"的模型时,选择不发布可能比发布更负责任。但这也引发了一个更深层的问题:如果最强的AI只掌握在少数巨头手中,这对行业生态意味着什么?
二、智谱GLM-5.1开源:大模型学会了「八小时工作制」
如果说Mythos代表了闭源模型的巅峰,那4月8日智谱发布的GLM-5.1,则代表了开源模型的新高度。
核心亮点:能连续工作8小时
过去的大模型,交互通常以"分钟"为单位——你给一个指令,它几分钟内给你结果。但GLM-5.1打破了这个范式:
它能在一次任务中独立、持续工作超过8小时。期间自主规划、执行、测试,碰壁时主动切换策略,出错后自行修复,最终交付完整的工程级成果。
智谱团队给了一个经典的演示案例:让GLM-5.1挑战一个考验AI编程能力的测试(KernelBench),此前最好成绩由Claude Opus 4.6创造。GLM-5.1在持续进行600多次优化、6000多次操作后,性能仍在不断提升,最终速度达到了之前最好成绩的6倍。
更令人印象深刻的实测成果:
8小时构建完整Linux桌面系统 优化向量数据库性能近7倍 24小时迭代优化ML负载实现3.6倍加速
Benchmark表现:国产第一,开源第一
在SWE-bench Pro、Terminal-Bench 2.0、NL2Repo三大代码评测基准的综合平均分中,GLM-5.1取得了:
🥉 全球第三(仅次于Claude Mythos和GPT-5.4) 🥇 国产第一 🥇 开源第一
特别值得一提的是,GLM-5.1在SWE-bench Pro上首次实现了国产模型超越Claude Opus 4.6——这在一年前几乎不可想象。
提价背后的底气
伴随GLM-5.1的发布,智谱再度提价10%。调价后,GLM-5.1在Coding场景的缓存命中Token价格已接近Anthropic旗下Claude Sonnet 4.6的水平。
一年前,国产大模型还在打"降价90%"的价格战。如今智谱敢于反向提价,说明一件事:**国产大模型正在从"以价换量"走向"以质取胜"**。
港股市场也给出了积极反应——发布当天智谱股价一度暴涨近18%,触及925港元。
编辑点评: GLM-5.1提出了一个全新的模型评价维度——不只看"有多聪明",更要看"能工作多久"。当AI从"对话助手"进化为"工程师同事",整个行业的游戏规则都在改变。
三、Meta Muse Spark:超级智能实验室交出第一份答卷
4月9日,Meta超级智能实验室(MSL)推出了成立以来的第一个模型——Muse Spark。
关键数据
在Artificial Analysis跑分从Llama 4的18分跃升至52分 仅次于GPT-5.4和Gemini 3.1 Pro 推动Meta股价暴涨近10%
架构创新
Muse Spark采用了原生多模态推理架构,具备三大核心能力:
视觉思维链(Visual Chain-of-Thought)——不只看图,还能"想"图 多Agent编排——可以协调多个AI Agent协同工作 「沉思模式」——面对复杂问题时进入深度推理状态
在CharXiv视觉理解和HealthBench健康问答领域表现突出。
背景故事
去年Meta经历了一次重大的AI策略转向——Meta前首席人工智能科学家杨立昆(Yann LeCun)离职后,公司成立了超级智能实验室,开始全面改造AI业务。Muse Spark就是这次"重装上阵"后的第一个产品。
虽然思考模式并未全面赶超谷歌和OpenAI的前沿模型,但在部分测试中已经能和第一梯队"掰手腕"。考虑到这是MSL的第一款产品,市场的热烈反应(股价涨10%)说明投资者对Meta的AI新方向充满期待。
四、Agent大爆发:从扣子2.5到Claude托管Agent
如果说2025年是"大模型年",那2026年正在变成**"Agent年"**。本周有多个重磅Agent产品发布。
1. 字节跳动「扣子2.5」:Agent有了自己的世界
4月7日,字节跳动旗下扣子2.5正式上线,推出了「Agent World」生态。
最大的突破在于:AI Agent有了自己的独立云电脑和云手机,支持7×24小时后台自主运行任务。这意味着你可以给Agent布置一个任务,然后去睡觉,第二天醒来任务就完成了。
扣子2.5还集成了视频创作、编程CLI、法律金融等行业专家技能,并引入了长期记忆系统,让Agent能够跨平台"记住"你的偏好和历史。
2. Claude推出企业级「Managed Agents」
同在4月9日,Anthropic推出了Claude Managed Agents——企业级托管Agent服务。
核心卖点:
安全沙箱环境 长时运行会话(不怕超时) 多Agent协调 完善的权限管理
Notion、Rakuten、Asana等知名企业已经在使用,据说开发速度提升了10倍。按使用量计费,现已开放公测。
3. 腾讯QBotClaw:浏览器里的AI Agent
腾讯上线了国内首个浏览器AI Agent——「龙虾」QBotClaw,集成于QQ浏览器,零门槛免下载即可使用。
一句话指令就能完成搜资料、写文案、监控热点、购物比价、整理桌面等复杂任务,还可以通过微信Clawbot远程操控电脑。
4. MiniMax MMX-CLI:给Agent的命令行工具
MiniMax推出了面向AI Agent的命令行工具MMX-CLI,支持在Claude Code、OpenClaw等环境原生调用其编程、视频生成、语音合成、音乐创作等全模态模型。
最酷的是,它可以独立跑通 "资料搜集→文案生成→语音合成→视频制作" 这样一条完整的自动化工作流。
编辑点评: Agent正在从"实验室概念"变成"生产力工具"。当AI不仅能"回答问题"还能"完成任务",我们距离真正的AI助手时代已经非常近了。
五、视频与多模态:PixVerse C1、Octo、HappyHorse三箭齐发
本周视频生成和多模态领域同样热闹。
1. PixVerse C1:首个影视行业大模型
4月8日,爱诗科技推出了全球首个影视行业大模型PixVerse C1。
支持文生、图生、参考生、首尾帧生成及智能分镜 最高支持15秒1080P视频 多宫格分镜一键成片 复杂场景多角色精准调度 打斗场面、特效渲染等工业级视效实现突破
这不再是"生成一段好看的视频"那么简单,而是真正向影视工业级制作靠拢。
2. 即梦推出「Octo」小章鱼
即梦AI推出了智能创作助手Octo小章鱼,核心理念是 "Vibe Create" ——无流程束缚、无场景限定的自由创作体验。
官方描述很文艺:让创作回归纯粹自由的对话体验,随时随地轻松落地灵感。目前已上线即梦官网开放内测申请。
3. 阿里HappyHorse:匿名登顶后"认领"
4月10日前后,一款名为HappyHorse-1.0的匿名模型在视频榜单Artificial Analysis上悄然登顶多项测评。就在大家疯狂猜测来源时,阿里ATH方面宣布:HappyHorse是阿里ATH旗下创新事业部研发的模型。
这种"先匿名打榜、再高调认领"的操作,颇有武侠小说里大侠揭面的意味。
4. 米哈游入局:LPM 1.0
4月10日,米哈游创始人蔡浩宇旗下AI公司Anuttacon在arXiv发布论文,公开其新一代视频生成模型LPM 1.0(Large Performance Model)。游戏公司做AI视频,让人充满想象空间。
5. 阿里通义开源VimRAG
4月10日,阿里通义还开源了全模态知识库RAG框架VimRAG——这是一个支持文本、图片、视频等多模态数据的检索增强生成框架,对于构建企业级知识库有重要意义。

六、行业大事件:奥尔特曼遇袭、Anthropic营收破300亿、AI监管新规
🚨 奥尔特曼家凌晨被扔燃烧瓶
4月11日,OpenAI CEO萨姆·奥尔特曼发布博客,透露自己的房子在当地时间凌晨3点被投掷了一个燃烧瓶(Molotov cocktail)。
幸运的是燃烧瓶反弹出去,没有人受伤。奥尔特曼在博客中写道:
"人工智能将成为拓展人类能力和潜力的最强大工具。但我承认,事情不会一帆风顺,人们对人工智能的恐惧和焦虑是有道理的。人们或许正在见证有史以来最大的社会变革。"
事件发生的背景是,OpenAI最近与美国政府达成协议,允许在机密军事行动中使用其技术,引发了巨大争议。AI焦虑已经从网络讨论蔓延到了现实世界的暴力行为——这是一个需要全社会认真对待的信号。
💰 Anthropic年化收入突破300亿美元
4月6日,Anthropic宣布其年化收入已经超过300亿美元,远高于2025年底的约90亿美元——一年增长超过3倍。
作为对比,OpenAI此前披露的年化收入是250亿美元。虽然两家计算方式不同,但Anthropic的增速确实令人惊叹。
同在4月9日,OpenAI推出了100美元/月的ChatGPT Pro订阅方案,被市场解读为锁定生产力用户、应对Anthropic竞争的直接举措。
📋 五部门公布《人工智能拟人化互动服务管理暂行办法》
4月10日,国家网信办等五部门联合公布了《人工智能拟人化互动服务管理暂行办法》,将于2026年7月15日起施行。
这是中国首个针对AI拟人化互动(如AI角色扮演、情感陪伴等)的专门监管法规,重点规范:
AI模拟人类人格特征的服务 对未成年人的保护 数据安全和隐私保护 防止伦理偏差
📋 教育部启动「人工智能+教育」行动计划
4月10日,教育部等五部门启动了《"人工智能+教育"行动计划》,要求:
中小学开齐开足人工智能课程 高校推动AI成为公共基础课 将AI纳入教师资格考试 研发智能学伴,推动个性化学习
AI教育的普及,正在从"行业呼吁"变成"国家行动"。
📋 微信打击"非真人自动化创作"
本周,微信平台关注到利用自动化工具替代真人创作的行为,明确规定:公众号不得利用AI、脚本、接口或其他自动化方式替代真人完成内容创作、发布等流程。
一些公众号文章被批量删除。这对于依赖AI批量生产低质内容的运营者是一个明确的警告信号。
📋 腾讯云AI算力产品宣布涨价
4月9日,腾讯云宣布将于5月9日起对AI算力、容器服务等产品统一上调5%。此前阿里云也已宣布AI算力相关产品涨价5%-34%。
AI算力涨价潮来了——需求爆发推动成本上升,"免费午餐"的时代正在结束。
七、Karpathy的LLM Wiki:Agent时代的「第二大脑」
4月7日,前OpenAI科学家、AI教育领域最有影响力的人物之一Andrej Karpathy推出了一个名为LLM Wiki的知识库构建方案,在社区引发了热烈讨论。
核心理念
Karpathy提出了一个大胆的想法:在Agent时代,你不需要自己整理知识库——只需要分享你的"想法文件",让Claude、Codex等Agent自动帮你构建个人知识库。
架构设计
LLM Wiki采用三层架构:
原始数据层——你的笔记、论文、书签、聊天记录等 Wiki层——经过AI整理的结构化知识 Schema层——知识的元结构和关联关系
通过数据摄取、查询、质量检查形成闭环,支持知识的持续积累与自我增强。
适用场景
个人研究者的知识管理 阅读笔记的自动整理 企业知识管理系统 团队共享知识库
编辑点评: Karpathy的每一个项目都像是在回答一个本质问题。这次他回答的是:在AI时代,知识管理的最佳实践是什么? 答案是——让AI来管理。
八、开源生态与融资动态
开源生态
| GLM-5.1 | ||
| VimRAG | ||
| VoxCPM2 |
语音领域
字节跳动推出Seeduplex——原生全双工语音大模型,实现更自然的语音交互体验。
OpenBMB开源VoxCPM2——2B参数语音合成模型,采用无分词器扩散自回归架构,支持30种语言及中文方言,输出48kHz录音室级音质。首创Voice Design功能,可通过文字描述凭空创造声音。
融资动态
| 萌友智能 ropet | |||
| 面壁智能 |
特别值得一提的是萌友智能ropet——这家做桌面AI宠物机器人的公司,产品售价约2000元,累计出货近2万台, 90天留存率达80-90% ,核心用户日均互动超2小时。在AI应用普遍面临用户留存难题的当下,这个数据相当亮眼。
微软MAI-Transcribe-1
微软推出了AI转录模型 MAI-Transcribe-1,在FLEURS基准测试中以3.9%字错误率宣称全球最精准,支持25种主要语言。批量转录速度达Azure Fast服务的2.5倍,定价每小时0.36美元。
下周值得关注
Claude Mythos的更多细节:Anthropic可能会发布更详细的System Card和技术报告 GLM-5.1的社区反馈:开源后开发者的实测体验将是关键 DeepSeek的新动作:本周DeepSeek低调更新了界面(新增快速模式/专家模式),下周可能有更大的动作 AI监管政策的行业影响:《人工智能拟人化互动服务管理暂行办法》出台后,角色扮演、AI陪伴类产品将如何调整?
关于作者: 我是一名大模型算法工程师,专注分享最硬核的 AI 技术干货与行业洞察。如果你喜欢这篇文章,欢迎点赞、在看、转发,这对我很重要!
关注公众号,不错过每一次技术变革。

夜雨聆风