一张图引爆全网:AI大厂先发「满血版」再偷偷削弱,等新模型发布就显得「飞跃巨大」?5000人点赞,Gary Marcus亲自下场追问

导读
一条推文、一张图，把Anthropic、OpenAI和Google同时钉在了耻辱柱上——有人指控：三大AI巨头发布新模型时故意拉满质量，然后在后续数周里悄悄"nerf"（削弱），等到下一代模型发布时，用户就会觉得"哇，进步好大"。这条推文24小时内获得超过5000赞、26万次浏览，连AI批评界的"教父"Gary Marcus都坐不住了。真相究竟如何？

那张"致命"的图

事情的起点是开发者Marcin Krzyzanowski在X上转发的一张图表。

图表标题写着"Perceived capability over time"（感知能力随时间变化），三条曲线分别代表OpenAI、Anthropic和Google。每条曲线的走势惊人地一致：新模型发布时冲到峰值，然后缓慢下滑，直到下一个新模型发布，再次冲高——形成一个又一个"锯齿形"的波峰波谷。

Krzyzanowski转发时只加了四个字："sounds right what's happening"（听起来就是正在发生的事）。

▲ Krzyzanowski的推文，附带那张"致命曲线图"，5400+赞，26万+浏览

这条推文瞬间点燃了整个AI社区。

Gary Marcus下场：「图很致命，但出处在哪？」

当AI学术界最著名的"质疑者"Gary Marcus看到这张图时，他的反应耐人寻味——

"If true (and it does fit with my perceptions FWIW), this is an amazing and incredibly damning graph."

「如果为真（而且确实符合我的感受），这张图简直惊人，极具杀伤力。」

但紧接着，他问了一个关键问题：

"Can anyone find the source on which it is based?"

「有人能找到这张图的原始来源吗？」

▲ Gary Marcus：图很致命——但来源呢？

这个追问至关重要。一张没有来源的图，无论多么"符合直觉"，都可能只是精心制作的阴谋论素材。Gary Marcus用一个问号，把整场讨论从"情绪宣泄"拉回到了"证据审查"。

反方开火：「证据呢？现代社会的推理还停留在'听起来对'？」

质疑声几乎同步而来。

网友Ruby直接开怼：

"Lol, so where are sources and evidence? I like how reasoning in modern society still at the level of 'sounds right'."

「笑死，证据和来源呢？我真是喜欢现代社会的推理水平——'听起来对'就行了。」

她还补了一刀："你说benchmark没用？行。但如果模型真的变差了，benchmark一定能捕捉到。"

▲ Ruby：证据呢？"听起来对"不是证据

另一位科学家Kamil Pabis则直接给这条推文贴上了FUD（Fear, Uncertainty, Doubt，恐惧、不确定、怀疑）的标签：

"Sounds like FUD. It is a serious allegation that has been denied repeatedly by the labs and also not something I have ever noticed for myself."

「听起来像FUD。这是一项严重的指控，各实验室已经多次否认，而且我自己从来没注意到过这种现象。」

▲ Kamil Pabis：这像FUD，实验室已多次否认

Benchmark大战：到底能不能测出「偷偷变差」？

讨论很快进入了最核心的技术争议：如果模型真的在发布后被削弱，标准benchmark为什么抓不到？

网友tmuxvim抛出了一个简洁有力的问题：

"why would benchmarks not identify it, as long as you run them when the model comes out"

「只要你在模型发布时跑benchmark，之后再跑一次，为什么会发现不了？」

▲ tmuxvim：发布时跑一次benchmark，之后再跑一次，就能发现了吧？

对此，Krzyzanowski给出了两条回应。第一条：他贴出了一组学术图表，标题为"Temporal quality degradation in AI models"（AI模型的时间维度质量退化），显示多个数据集上存在随时间推移的性能变化趋势。

▲ Krzyzanowski贴出研究图表：有论文识别出AI模型的质量退化现象

第二条：他称"有多个网站每天追踪benchmark，可以展示逐日差异"。

▲ Krzyzanowski：有网站每天追踪benchmark，能看到日常波动

但当被进一步追问时，他又滑向了另一个极端——

"benchmarks are useless, who's surprised in 26"

「benchmark就是没用的东西，2026年了谁还会吃惊？」

▲ Krzyzanowski最后的立场：benchmark本身就没用

这段争论暴露了整个讨论的核心矛盾：如果你认为benchmark能捕捉退化，那就拿数据出来说话；如果你认为benchmark根本无效，那你凭什么说模型变差了？两头都想占，逻辑链就断了。

「Enshittification降临奇点」：一句话戳中所有人

在技术辩论的间隙，一条评论获得了病毒式传播。网友John Carter只说了一句话：

"Enshittification comes for the Singularity."

「Enshittification（劣质化）降临了奇点时代。」

▲ John Carter的一句话浓缩了所有人的情绪

Enshittification——这个由Cory Doctorow发明的词，原本用来描述互联网平台从"对用户好"到"榨取用户"的退化过程。现在，它被直接嫁接到了AI模型上。

这句话之所以能引爆传播，是因为它精准捕捉到了一种弥漫在AI用户群体中的集体焦虑：我每月付20美元订阅的模型，还是上个月那个模型吗？

真正该问的问题：我们买到的到底是什么？

在所有喧嚣之中，一条评论指向了最本质的问题。网友Focused Entropy写道：

"The AI regulation we need is consumer protection laws. We have no idea what we're paying for."

「我们真正需要的AI监管，是消费者保护法。我们根本不知道自己花钱买到的是什么。」

▲ Focused Entropy：我们需要的AI监管，是消费者保护

这或许才是整场争论中最清醒的一条。

无论"故意nerf"的指控是否成立，一个事实是不可否认的：AI公司可以在不通知用户的情况下修改模型行为。没有版本锁定、没有变更日志、没有第三方审计。你今天用的Claude和下周用的Claude，可能参数已经被调整过——而你永远不会收到一封邮件告诉你这件事。

在传统软件行业，这叫无声更新（silent update），通常会受到严格监管。但在AI领域？目前是一片灰色地带。

阴谋论还是系统性问题？

让我们回到最初的问题：AI大厂真的在"先发满血版，再偷偷削弱"吗？

目前没有确凿的公开证据证明这是一种有组织的商业策略。那张在推特上疯传的图表，至今没人找到可验证的原始来源。Gary Marcus问了，没人答得上来。

但"没有证据"和"不存在"是两码事。

可以确认的是：用户对模型质量波动的感知是真实的。无数开发者在Reddit、HN和X上报告过"同一个模型，上个月好用，这个月就不行了"。而AI公司对此的标准回复往往是"我们没有改变模型"——但他们也承认会进行A/B测试、调整采样参数、修改系统提示词。

真正可怕的地方在于：你无法区分"故意削弱"和"正常的服务端调整"。因为这一切都发生在黑箱里。

这场5000赞的推特风暴，表面上是一个阴谋论，本质上是一个治理问题——当你为一个持续变化的AI模型付费时，你到底拥有什么权利？

— END —