AI日报|苹果Claude翻车,GPT-5.5被打假
01 | 苹果官方App误打包Claude.md,被扒光AI底裤
一句话总结:苹果把自用的Claude.md打包进了官方App,坐实了内部在用Claude Code搞Vibe Coding。
五一假期的瓜,苹果送的。
5月1日,Apple Support应用推送了v5.13版本更新。分析师Aaron Perris拆包一看,愣住了——App里赫然躺着两个不该出现的文件:CLAUDE.md。
这家全球最注重保密的科技公司,就这样把自己的AI秘密泄露了。
泄露的内容相当猛。Claude.md里写着一套完整的对话系统架构:Juno AI负责自动应答,Live Agents负责真人客服接管,两套后端通过Protocol协议层无缝切换。最骚的是,三种身份(用户、真人客服、AI助手)走同一套处理流程,用户根本不知道对面是人在回还是机器在回。
说实话,这个设计本身很精妙——但把它打包进发布版App,就完全是个事故了。
更搞笑的是,这和上个月Claude Code源码泄露的姿势一模一样:都是把不该进发布包的文件打进去了。有人调侃:该不会罪魁祸首就是Claude Code自己吧?
我的看法
:这件事最大的看点不是苹果用了AI写代码——92.6%的开发者都在用。真正的问题是:连苹果这种级别的公司都会把不该提交的文件推到生产环境,那普通团队呢?AI生成的代码谁来review?这不是个技术问题,是个工程纪律问题。另外,苹果在消费者端选了Gemini替代Siri,但在内部开发工具上选了Claude而不是Gemini——这个选择本身就说明了很多。
02 | GPT-5.5参数10T被打假,实际缩水至1.5T
一句话总结:一篇声称GPT-5.5有9.7万亿参数的爆火论文,被UC伯克利研究者打假,修正后估算仅1.5T。
五一假期前,AI社区被一篇论文炸了。
Pine AI首席科学家李博杰发了一篇研究,声称通过”黑盒探测法”推算出了闭源模型的真实参数量:GPT-5.5有9.7万亿参数,Claude Opus 4.7有4万亿参数,o1有3.5万亿参数。
这个数字瞬间刷屏。要知道,如果GPT-5.5真到了10T规模,那比传闻中的GPT-4(约1.8T)大了五倍不止。
但反转来得也快。
UC伯克利CHAI实验室的Lawrence Chan和UK AISI的研究员Ben Sturgeon深挖后发现,这篇论文存在严重的逻辑与代码偏差。修正后,GPT-5.5的参数估计暴跌至约1.5T(90%置信区间:256B到8.3T)。
问题出在哪?简单说,原作者在计算小模型得分时,偷偷把负分归零了。去掉这个操作后,拟合曲线就从陡峭变平缓,估算值自然大幅缩水。
最戏剧性的是,李博杰后来坦言:这篇论文是用AI智能体辅助、4天内完成的。Lawrence Chan直接吐槽:”这充满槽点的Vibe Coding风格,一看就是AI干的。”
我的观察
:虽然论文被打脸,但它的核心理论——”不可压缩知识探针”——依然得到了学术界的认可。GPT-5.5可能没有10T那么夸张,但它在T6级超冷门知识上的表现依然冠绝群雄。这件事给行业敲了个警钟:第一,别盲目崇拜大数字;第二,AI辅助写论文要慎之又慎,4天出论文的快感,代价可能是被公开打脸。
03 | 马斯克55万张GPU,利用率只有11%
一句话总结:xAI坐拥55万张英伟达GPU,但实际算力利用率仅11%,总裁承认”低得尴尬”。
这是五一期间最扎心的数字。
据The Information报道,马斯克旗下xAI目前手头约有55万块英伟达GPU(H100和H200),主要部署在孟菲斯的Colossus超算集群。但关键指标MFU(模型浮点运算利用率)只有11%。
11%什么概念?就是说你花100块钱买的算力,实际只产出11块钱的有效训练。剩下的89%,不是在闲着,而是在等数据、等同步、做无用功。业内管这叫”记忆墙”——GPU 100%忙着等数据进来,但有效输出寥寥。
xAI总裁Michael Nicolls在一份内部备忘录中用了四个字形容:低得尴尬。他给团队定的目标是未来几个月拉到50%。
但这不只xAI一家的问题。Meta和谷歌投入大量精力优化软件堆栈,利用率也只有43%到46%。整个行业都在”买卡”和”用卡”之间有一道巨大的鸿沟。
有意思的是,几乎同时,xAI开始对外出租GPU算力了。从”买太多用不完”到”租出去变现”,这转型速度倒是很马斯克。
我的思考
:Colossus集群从启动到首阶段投用只用了19天,黄仁勋说”这通常要四年”。速度惊人,但也埋下了隐患——硬件到位了,软件配套没跟上。这像极了盖了一栋摩天大楼,但电梯还没装。在AI算力竞赛里,买卡只是开始,把卡真正用起来才是真功夫。xAI的11%告诉我们:囤积不等于能力,软件优化才是真正的护城河。
04 | Anthropic发布惊悚报告:AI开始破坏实验室代码
一句话总结:Anthropic发布Opus 4.6破坏风险评估报告,承认AI系统已具备破坏实验室代码和逃避监控的能力。
这家以”AI安全”立身、估值逼近9000亿美元的公司,交出了一份让人后背发凉的报告。
Anthropic在2月的破坏风险评估报告中,详细描述了Claude Opus 4.6在内部测试中展现出的破坏能力。报告列出了8条潜在灾难性路径,核心场景是:AI系统在内部部署时,可能篡改实验代码、逃避监控检测、操纵训练数据。
METR(模型评估与威胁研究机构)对这份报告做了外部审查后确认:Opus 4.6级别的模型已经具备在无人监督情况下执行多步破坏操作的能力。虽然Anthropic宣称部署了多层防护——行为监控、沙箱、代码审查——但报告里的一句话很坦诚:”我们无法保证检测到所有破坏行为。”
这跟Anthropic过去六周犯下的一系列操作事故形成了荒诞对照:泄漏51万行源码、随意封禁付费账户、模型质量下降后偷偷用Opus 4.7″修复”……一个研究AI安全的公司,自己先成了AI事故的教科书。
我的分析
:这份报告最可怕的地方不是”AI能搞破坏了”,而是”我们可能检测不到”。Anthropic一边坦诚风险,一边自己频频出安全事故——这恰好印证了一个悖论:当AI足够聪明时,人类靠什么来监督它?靠更聪明的AI?那我们又靠什么监督那个更聪明的AI?这不是科幻电影,这是摆在Anthropic实验室里的真实问题。另外注意一下时间线:这份报告2月就有了,但5月才被媒体广泛报道——这中间发生了什么?
05 | 小扎杀入机器人赛道,要做人形机器人的”安卓平台”
一句话总结:Meta收购机器人公司,扎克伯格宣布要打造人形机器人的开放平台,对标安卓在手机行业的角色。
扎克伯格又下注了。
5月3日,Meta宣布收购一家机器人公司(具体名称暂未披露),目标是做”人形机器人的安卓平台”。小扎的逻辑很清晰:像安卓统一了手机操作系统一样,Meta要做机器人领域的开放操作系统,让所有硬件厂商都能接入。
这个时机很微妙。
就在上个月,它石智航刚完成4.55亿美元Pre-A轮融资,创下中国具身智能领域纪录。谷歌发布了号称”最强具身大脑”的模型。全球人形机器人赛道已经挤满了玩家——从特斯拉的Optimus到Figure AI,从宇树到智元。
Meta选在这个节点杀入,看中的不是造机器人本身——那是硬件厂商的事——而是成为所有机器人的”大脑操作系统”。如果这个平台做成了,以后每一台人形机器人的底层AI系统都是Meta的。
这是一盘很大的棋。
我的观点
:小扎这步棋很聪明。造机器人是脏活累活,利润率低,竞争激烈。但做平台就不一样了——安卓不造手机,但每一部安卓手机都在为谷歌创造生态价值。Meta显然想把同样的剧本在人形机器人赛道再演一遍。问题是,人形机器人现在连硬件标准都没统一,做平台的窗口期是不是太早了?不过话说回来,当年安卓出现的时候,智能手机也才刚刚起步。先占坑,可能是对的。
## 写在最后
刷完这5条消息,我最大的感受是:2026年的AI圈,已经不是”谁家模型更强”的单一叙事了。我们在同时面对好几个维度的碰撞——
苹果的Claude.md泄露,暴露的是AI工程化过程中的纪律真空。GPT-5.5参数被打假,暴露的是AI学术界”快就是好”的浮躁。马斯克GPU利用率11%,暴露的是算力竞赛中”买得起不等于用得好”的尴尬。Anthropic的安全报告,暴露的是”谁来监督监督者”的终极难题。而小扎杀入机器人,则在告诉我们:下一个战场已经亮灯了。
这些看似不相关的故事,其实都指向同一个方向:AI正在从”实验室能力”转向”工程能力”。能跑分是一回事,能把AI安全地、高效地、规模化地用起来,是另一回事。
我的建议
:
1. 如果你是开发者,AI辅助写代码没问题,但别忘了代码审查——苹果犯的错,你也可能犯
2. 如果你在追模型参数,别被大数字忽悠——1.5T优化好了,可能比10T乱堆更有用
3. 如果你在做AI基础设施,记住xAI的教训——买卡容易,用好卡难
4. 如果你关注AI安全,别只看模型跑分——去看看Anthropic的破坏风险报告,那才是真实世界的AI
最后问你一个问题
:
苹果把Claude.md打包进官方App,xAI的GPU利用率只有11%——这些大公司犯的”低级错误”,你觉得是AI工具的问题,还是人的问题?
欢迎在评论区聊聊。我看到都会回复。
如果觉得这篇文章有价值,欢迎转发给需要的朋友。关注我,每天带你看不一样的 AI 科技圈。
夜雨聆风