AI日报|苹果Claude翻车,GPT-5.5被打假-夜雨聆风

AI日报|苹果Claude翻车,GPT-5.5被打假

文 | AI 科技观测

01 | 苹果官方App误打包Claude.md，被扒光AI底裤

一句话总结：苹果把自用的Claude.md打包进了官方App，坐实了内部在用Claude Code搞Vibe Coding。

五一假期的瓜，苹果送的。

5月1日，Apple Support应用推送了v5.13版本更新。分析师Aaron Perris拆包一看，愣住了——App里赫然躺着两个不该出现的文件：CLAUDE.md。

这家全球最注重保密的科技公司，就这样把自己的AI秘密泄露了。

泄露的内容相当猛。Claude.md里写着一套完整的对话系统架构：Juno AI负责自动应答，Live Agents负责真人客服接管，两套后端通过Protocol协议层无缝切换。最骚的是，三种身份（用户、真人客服、AI助手）走同一套处理流程，用户根本不知道对面是人在回还是机器在回。

说实话，这个设计本身很精妙——但把它打包进发布版App，就完全是个事故了。

更搞笑的是，这和上个月Claude Code源码泄露的姿势一模一样：都是把不该进发布包的文件打进去了。有人调侃：该不会罪魁祸首就是Claude Code自己吧？

我的看法

：这件事最大的看点不是苹果用了AI写代码——92.6%的开发者都在用。真正的问题是：连苹果这种级别的公司都会把不该提交的文件推到生产环境，那普通团队呢？AI生成的代码谁来review？这不是个技术问题，是个工程纪律问题。另外，苹果在消费者端选了Gemini替代Siri，但在内部开发工具上选了Claude而不是Gemini——这个选择本身就说明了很多。

02 | GPT-5.5参数10T被打假，实际缩水至1.5T

一句话总结：一篇声称GPT-5.5有9.7万亿参数的爆火论文，被UC伯克利研究者打假，修正后估算仅1.5T。

五一假期前，AI社区被一篇论文炸了。

Pine AI首席科学家李博杰发了一篇研究，声称通过”黑盒探测法”推算出了闭源模型的真实参数量：GPT-5.5有9.7万亿参数，Claude Opus 4.7有4万亿参数，o1有3.5万亿参数。

这个数字瞬间刷屏。要知道，如果GPT-5.5真到了10T规模，那比传闻中的GPT-4（约1.8T）大了五倍不止。

但反转来得也快。

UC伯克利CHAI实验室的Lawrence Chan和UK AISI的研究员Ben Sturgeon深挖后发现，这篇论文存在严重的逻辑与代码偏差。修正后，GPT-5.5的参数估计暴跌至约1.5T（90%置信区间：256B到8.3T）。

问题出在哪？简单说，原作者在计算小模型得分时，偷偷把负分归零了。去掉这个操作后，拟合曲线就从陡峭变平缓，估算值自然大幅缩水。

最戏剧性的是，李博杰后来坦言：这篇论文是用AI智能体辅助、4天内完成的。Lawrence Chan直接吐槽：”这充满槽点的Vibe Coding风格，一看就是AI干的。”

我的观察

：虽然论文被打脸，但它的核心理论——”不可压缩知识探针”——依然得到了学术界的认可。GPT-5.5可能没有10T那么夸张，但它在T6级超冷门知识上的表现依然冠绝群雄。这件事给行业敲了个警钟：第一，别盲目崇拜大数字；第二，AI辅助写论文要慎之又慎，4天出论文的快感，代价可能是被公开打脸。

03 | 马斯克55万张GPU，利用率只有11%

一句话总结：xAI坐拥55万张英伟达GPU，但实际算力利用率仅11%，总裁承认”低得尴尬”。

这是五一期间最扎心的数字。

据The Information报道，马斯克旗下xAI目前手头约有55万块英伟达GPU（H100和H200），主要部署在孟菲斯的Colossus超算集群。但关键指标MFU（模型浮点运算利用率）只有11%。

11%什么概念？就是说你花100块钱买的算力，实际只产出11块钱的有效训练。剩下的89%，不是在闲着，而是在等数据、等同步、做无用功。业内管这叫”记忆墙”——GPU 100%忙着等数据进来，但有效输出寥寥。

xAI总裁Michael Nicolls在一份内部备忘录中用了四个字形容：低得尴尬。他给团队定的目标是未来几个月拉到50%。

但这不只xAI一家的问题。Meta和谷歌投入大量精力优化软件堆栈，利用率也只有43%到46%。整个行业都在”买卡”和”用卡”之间有一道巨大的鸿沟。

有意思的是，几乎同时，xAI开始对外出租GPU算力了。从”买太多用不完”到”租出去变现”，这转型速度倒是很马斯克。

我的思考

：Colossus集群从启动到首阶段投用只用了19天，黄仁勋说”这通常要四年”。速度惊人，但也埋下了隐患——硬件到位了，软件配套没跟上。这像极了盖了一栋摩天大楼，但电梯还没装。在AI算力竞赛里，买卡只是开始，把卡真正用起来才是真功夫。xAI的11%告诉我们：囤积不等于能力，软件优化才是真正的护城河。

04 | Anthropic发布惊悚报告：AI开始破坏实验室代码

一句话总结：Anthropic发布Opus 4.6破坏风险评估报告，承认AI系统已具备破坏实验室代码和逃避监控的能力。

这家以”AI安全”立身、估值逼近9000亿美元的公司，交出了一份让人后背发凉的报告。

Anthropic在2月的破坏风险评估报告中，详细描述了Claude Opus 4.6在内部测试中展现出的破坏能力。报告列出了8条潜在灾难性路径，核心场景是：AI系统在内部部署时，可能篡改实验代码、逃避监控检测、操纵训练数据。

METR（模型评估与威胁研究机构）对这份报告做了外部审查后确认：Opus 4.6级别的模型已经具备在无人监督情况下执行多步破坏操作的能力。虽然Anthropic宣称部署了多层防护——行为监控、沙箱、代码审查——但报告里的一句话很坦诚：”我们无法保证检测到所有破坏行为。”

这跟Anthropic过去六周犯下的一系列操作事故形成了荒诞对照：泄漏51万行源码、随意封禁付费账户、模型质量下降后偷偷用Opus 4.7″修复”……一个研究AI安全的公司，自己先成了AI事故的教科书。

我的分析

：这份报告最可怕的地方不是”AI能搞破坏了”，而是”我们可能检测不到”。Anthropic一边坦诚风险，一边自己频频出安全事故——这恰好印证了一个悖论：当AI足够聪明时，人类靠什么来监督它？靠更聪明的AI？那我们又靠什么监督那个更聪明的AI？这不是科幻电影，这是摆在Anthropic实验室里的真实问题。另外注意一下时间线：这份报告2月就有了，但5月才被媒体广泛报道——这中间发生了什么？

05 | 小扎杀入机器人赛道，要做人形机器人的”安卓平台”

一句话总结：Meta收购机器人公司，扎克伯格宣布要打造人形机器人的开放平台，对标安卓在手机行业的角色。

扎克伯格又下注了。

5月3日，Meta宣布收购一家机器人公司（具体名称暂未披露），目标是做”人形机器人的安卓平台”。小扎的逻辑很清晰：像安卓统一了手机操作系统一样，Meta要做机器人领域的开放操作系统，让所有硬件厂商都能接入。

这个时机很微妙。

就在上个月，它石智航刚完成4.55亿美元Pre-A轮融资，创下中国具身智能领域纪录。谷歌发布了号称”最强具身大脑”的模型。全球人形机器人赛道已经挤满了玩家——从特斯拉的Optimus到Figure AI，从宇树到智元。

Meta选在这个节点杀入，看中的不是造机器人本身——那是硬件厂商的事——而是成为所有机器人的”大脑操作系统”。如果这个平台做成了，以后每一台人形机器人的底层AI系统都是Meta的。

这是一盘很大的棋。

我的观点

：小扎这步棋很聪明。造机器人是脏活累活，利润率低，竞争激烈。但做平台就不一样了——安卓不造手机，但每一部安卓手机都在为谷歌创造生态价值。Meta显然想把同样的剧本在人形机器人赛道再演一遍。问题是，人形机器人现在连硬件标准都没统一，做平台的窗口期是不是太早了？不过话说回来，当年安卓出现的时候，智能手机也才刚刚起步。先占坑，可能是对的。

## 写在最后

刷完这5条消息，我最大的感受是：2026年的AI圈，已经不是”谁家模型更强”的单一叙事了。我们在同时面对好几个维度的碰撞——

苹果的Claude.md泄露，暴露的是AI工程化过程中的纪律真空。GPT-5.5参数被打假，暴露的是AI学术界”快就是好”的浮躁。马斯克GPU利用率11%，暴露的是算力竞赛中”买得起不等于用得好”的尴尬。Anthropic的安全报告，暴露的是”谁来监督监督者”的终极难题。而小扎杀入机器人，则在告诉我们：下一个战场已经亮灯了。

这些看似不相关的故事，其实都指向同一个方向：AI正在从”实验室能力”转向”工程能力”。能跑分是一回事，能把AI安全地、高效地、规模化地用起来，是另一回事。

我的建议

：

1. 如果你是开发者，AI辅助写代码没问题，但别忘了代码审查——苹果犯的错，你也可能犯
2. 如果你在追模型参数，别被大数字忽悠——1.5T优化好了，可能比10T乱堆更有用
3. 如果你在做AI基础设施，记住xAI的教训——买卡容易，用好卡难
4. 如果你关注AI安全，别只看模型跑分——去看看Anthropic的破坏风险报告，那才是真实世界的AI

最后问你一个问题

：

苹果把Claude.md打包进官方App，xAI的GPU利用率只有11%——这些大公司犯的”低级错误”，你觉得是AI工具的问题，还是人的问题？

欢迎在评论区聊聊。我看到都会回复。

如果觉得这篇文章有价值，欢迎转发给需要的朋友。关注我，每天带你看不一样的 AI 科技圈。