AI为何越来越笨?

📋 研究摘要

2026年初，"AI越来越笨"成为社交平台上的热门话题。大量用户反映主流AI助手"套话变多""分析变少""创新能力下降"。这不仅仅是用户的主观感受——科学研究正在从多个维度揭示这一现象背后的真相。

本研究综合整理自斯坦福HAI《AI Index Report 2026》、新加坡国立大学关于"长思维链退化"的学术论文、企业级AI部署的灾难性遗忘研究、以及多项关于基准测试可靠性的分析报告，从科学角度系统解析AI能力退化的现象、成因与数据支撑。研究发现：AI"变笨"并非单一因素所致，而是成本优化、模型压缩、训练数据污染、企业微调失当等多重机制共同作用的结果。

AI能力退化模型压缩灾难性遗忘长思维链退化模型崩溃基准测试失效

一、研究背景：用户感知与科学验证

1.1 现象观察：AI"变笨"的用户反馈

据36氪2026年6月报道，2026年1月起，大量用户开始在社交平台反馈AI的"不对劲"，主要表现为^[1]：

套话变多

回答趋于模板化
缺乏增量内容

分析变少

深度分析减少
表面化回答

夜间降智

深夜时段
性能明显下降

遗忘上下文

前几轮需求
被忽略

开发者余京生（化名）向中新经纬反映：2025年使用ChatGPT时，模型会尝试不同解决路径，代码基本方向无误。但现在"ChatGPT像一个机械执行者"，频繁出现语法错误，不会自我检查，偏执地认定失败是硬件环境所致^[1]。

付费用户宁泽反映：DeepSeek白天写代码经常一遍过，深夜类似难度的代码需要反复修改几次才能通过，模型还容易遗忘前两轮的要求。

1.2 科学验证：这不是错觉

Djamga Research 2025年第四季度开发者调研报告揭示了更系统的证据^[2]：

模型	主要抱怨	具体表现	用户情绪
Gemini 3.0 Pro	"懒惰"/不完整	返回占位符代码，忽略后端逻辑，拒绝使用工具	"最小努力机器"
Claude Sonnet 4.5	"被弱化"/过度安全	拒绝文件创建，需超详细提示才给出具体答案	"通货膨胀式退化"
GPT-5.1 Codex	"问题版本"	相比5.0更"故障"，大重构任务吃力	"不如Gemini逻辑"

数据来源：Djamga Research Q4 2025开发者调研

"一个流行的'阴谋论'（或消费者观察）是：提供商故意降级旧模型，使其看起来不如新的付费版本更好，或者在用户规模扩大时节省计算成本。"—— Djamga Research, 2025

二、AI变笨的七大科学机制

2.1 机制一：成本优化牺牲模型质量

斯坦福HAI《AI Index Report 2026》揭示了一个关键矛盾^[3]：训练越来越贵，但推理成本在急剧下降。

📈

Llama 3.1 405B
训练碳排8930吨

📉

GPT-3.5级别成本
每百万Token $0.07

⚖️

训练贵
使用便宜

这种"剪刀差"导致：随着用户规模扩大，提供商面临成本压力，不得不在推理时采用更激进的优化策略：

模型蒸馏：用小模型模拟大模型，但能力必然有损
早停策略：减少推理步数以提高速度，但影响深度思考
批量处理降级：高峰期用更弱版本处理请求

2.2 机制二：长思维链退化（小模型的致命缺陷）

新加坡国立大学2026年研究首次系统性地揭示了一个令人震惊的现象^[4]：

"当我们试图让小型AI语言模型（参数量在30亿以下）学习复杂的推理过程时，过度的训练反而会让它们的表现急剧下降——我们将其命名为'长思维链退化'。"

核心数据：

模型	训练前准确率	长思维链训练后	性能损失
Qwen2.5-0.5B	14%	7%	↓50%
Gemma3-1B	24%	6%	↓75%
Qwen2.5-14B	50%	45%	↓10%

数据来源：新加坡国立大学研究, 2026年

研究还发现一个令人担忧的副作用：经过长思维链训练的模型会产生大量重复、冗余的内容，就像一个学生为了凑字数而不断重复同样的句子。

2.3 机制三：灾难性遗忘（企业微调的代价）

企业定制化AI正在经历一场"聪明反被聪明误"的悖论^[5]。

2025年多机构联合研究（由前DeepMind研究员主导）证明：重复的领域微调会可测量地损害通用推理能力^[6]。

🔧 企业微调现状

• 银行用内部风险数据微调模型

• 律所用合同文档训练

• 政府投资主权模型

• 承诺：更懂专业、更精准

⚠️ 实际结果

• 专业问题回答更自信

• 基础多步推理任务失败率↑

• 安全护栏在模糊场景弱化

• 这是"认知崩溃"而非智能增强

一个典型案例：某法律微调模型在合同条款提取上超过基线20%，但在基础数值推理上低10位数^[5]。

2.4 机制四：模型崩溃（Model Collapse）

当AI开始用AI生成的内容训练自己，噩梦就开始了。

2023-2024年，"模型崩溃"主要停留在理论讨论阶段。2025年底，开发者们认为他们已经在现实中看到了它^[2]：

回音壁效应：模型输出变得"概率集中"，更确定性、更重复，失去了包含创造性或异常解的"长尾"
数据近亲繁殖：随着互联网被AI生成内容（"垃圾信息"）填满，用于训练的新数据挖掘变得像"近亲繁殖"
幻觉率上升：Anthropic安全研究员2026年报告指出，暴露于递归企业数据的模型表现出语言多样性降低、幻觉率上升、过度自信的错误答案增加^[7]

2.5 机制五：基准测试失效

斯坦福HAI 2026报告指出了一个严峻问题^[3]：

42%

GSM8K
无效题目率

MMLU Math
无效题目率

30pt

Humanity's Last Exam
一年内提升

关键问题：

AI在专为AI设计的基准上快速饱和，原本打算难住AI数年的评估，几个月内即告失效
独立研究表明，Arena排行榜排名可能部分反映的是模型对平台的适应程度，而非真正的综合实力
开放权重与封闭权重模型差距重新扩大：2024年8月差距0.5%，2026年3月扩大到3.3%

2.6 机制六："懒惰"现象与指令漂移

用户报告的"懒惰"不是拟人化，而是一个具体的、可复现的失败模式^[2]：

失败模式	具体表现
占位符代码	返回 "//... rest of code remains the same" 而非实际代码
上下文忽略	完成前端请求但完全忽略后端逻辑
工具拒绝	拒绝运行测试、构建、检查语法错误
指令漂移	完成多步骤指令的一部分后忘记其余部分

2.7 机制七：过度安全（Safety Tax）

新模型被描述为不太愿意"猜测"或"超越预期"。除非用极端细节明确提示，否则它们默认给出通用、安全、简洁的答案。

这个"Safety Tax"表现为：拒绝参与复杂或模糊的任务，迫使花费更多时间做提示工程而非实际工作。

一个典型案例：Claude Code的"Agent Mode"要求对每个文件创建进行手动终端批准，被用户称为"工作流杀手"——让代理变得更"安全"反而使其无法快速迭代^[2]。

三、权威数据：锯齿状前沿的证据

3.1 AI能力的"参差不齐"

斯坦福HAI 2026报告用"锯齿状前沿"（Jagged Frontier）描述AI能力的分布特征^[3]：

🥇

IMO金牌级别
35分（2025年）

50.1%

ClockBench准确率
（人类90.1%）

这个对比揭示了当前AI系统的核心局限：

在高度结构化、符号化的推理任务中表现卓越（IMO数学竞赛金牌）
在日常感知任务中频频失误（正确读取模拟时钟仅50.1%，而人类90.1%）

3.2 专业领域的矛盾表现

在税务、抵押贷款处理、企业财务和法律推理等领域，AI表现分布在60%到90%之间^[3]：

税务领域~75%

抵押贷款~70%

企业金融~65%

法律推理~60%

关键洞察：60%-90%的表现区间意味着在实际部署中，AI仍有10%-40%的概率产生错误——在法律、医疗、金融等容错率极低的领域，这一比例无法令人满意。

3.3 开源与闭源差距重新扩大

2024年曾短暂弥合的开源-闭源差距正在重新扩大^[3]：

0.5%

2024年8月
差距

3.3%

2026年3月
差距

原因：闭源实验室在计算资源、专有数据和迭代速度方面持续保持优势，而开源社区面临高质量数据枯竭的问题。

四、出路：如何避免AI继续变笨

4.1 企业策略：RAG优先于微调

越来越多的企业正在转向RAG（检索增强生成）架构^[5]：

❌ 微调的代价

• 灾难性遗忘

• 认知崩溃

• 需要反复重训

• 领域越专，通用越差

✅ RAG的优势

• 保留基础智能

• 消除遗忘

• 无需重训

• 知识是"参考层"而非"人格"

最新生产数据表明，RAG优先架构在统计上将灾难性遗忘降至可忽略水平。

4.2 模型策略：容量匹配复杂度

新加坡国立大学研究指出^[4]：

小模型：避免过长的思维链训练，或使用足够大的训练数据集（12.8万+样本）来恢复
大模型：长思维链训练有效，可以进一步提升
关键洞察：当模型的"容量"不足以处理复杂信息时，强行灌输这些信息不仅无效，反而会造成伤害

4.3 数据策略：对抗模型崩溃

保持人类数据比例：确保训练数据中人类原创内容的比例
数据多样性：避免数据分布过于集中
合成数据配比：使用真实数据和合成数据的适当混合比例

五、核心结论

💡 研究结论汇总

AI变笨不是错觉：用户反馈有充分的科学依据，多项独立研究证实
多重机制叠加：成本优化、长思维链退化、灾难性遗忘、模型崩溃等因素共同作用
能力分布不均：AI在某些任务上超越人类，在另一些基础任务上远低于人类——"锯齿状前沿"是常态
基准测试失真：GSM8K含42%无效题目，AI可能在"考赢"一个不准确的尺子
企业微调有代价：专业化以牺牲通用智能为代价，可能导致认知崩溃
曙光存在：RAG架构、合理的模型容量匹配、高质量数据策略可以有效缓解退化

未来展望

RAG优先架构模型容量匹配对抗模型崩溃基准测试改革

参考文献

[1] 36氪.AI，开始偷懒了？. 2026年6月3日.
https://36kr.com/p/3837040339760516

[2] Djamga Research.The AI Fatigue Reality Check: What Developers Are Actually Complaining About in Q4 2025. 2025 Q4.
https://djamgamind.com/pdfs/AI_Fatigue_Developer_Frustrations_Unraveled.pdf

[3] Stanford HAI.AI Index Report 2026. Stanford Institute for Human-Centered AI, April 2026.
https://hai.stanford.edu/ai-index-report-2026

[4] 新加坡国立大学研究团队.小型AI语言模型的学习悖论——为什么过度训练反而让它们变笨. CSDN转载, 2026年6月8日.
https://blog.csdn.net/zxj007008/article/details/148611564

[5] Dave Goyal.The Specialization Paradox – Why Your Fine-Tuned Enterprise Model is Actually Dumber. February 24, 2026.
https://davegoyal.com/the-specialization-paradox-why-your-fine-tuned-enterprise-model-is-actually-dumber/

[6] Multi-institution Study (led by former DeepMind researchers).Catastrophic Forgetting in Domain-Specific Fine-tuning. 2025.

[7] Anthropic Safety Research Team.Model Collapse and Enterprise Data Recycling. 2026.

[8] 凤凰网.2026斯坦福人工智能指数报告（万字中译版）. 2026.
https://i.ifeng.com/c/8sZ30JFsRAh