📋 研究摘要
2026年初,"AI越来越笨"成为社交平台上的热门话题。大量用户反映主流AI助手"套话变多""分析变少""创新能力下降"。这不仅仅是用户的主观感受——科学研究正在从多个维度揭示这一现象背后的真相。
本研究综合整理自斯坦福HAI《AI Index Report 2026》、新加坡国立大学关于"长思维链退化"的学术论文、企业级AI部署的灾难性遗忘研究、以及多项关于基准测试可靠性的分析报告,从科学角度系统解析AI能力退化的现象、成因与数据支撑。研究发现:AI"变笨"并非单一因素所致,而是成本优化、模型压缩、训练数据污染、企业微调失当等多重机制共同作用的结果。
一、研究背景:用户感知与科学验证
1.1 现象观察:AI"变笨"的用户反馈
据36氪2026年6月报道,2026年1月起,大量用户开始在社交平台反馈AI的"不对劲",主要表现为[1]:
缺乏增量内容
表面化回答
性能明显下降
被忽略
开发者余京生(化名)向中新经纬反映:2025年使用ChatGPT时,模型会尝试不同解决路径,代码基本方向无误。但现在"ChatGPT像一个机械执行者",频繁出现语法错误,不会自我检查,偏执地认定失败是硬件环境所致[1]。
付费用户宁泽反映:DeepSeek白天写代码经常一遍过,深夜类似难度的代码需要反复修改几次才能通过,模型还容易遗忘前两轮的要求。
1.2 科学验证:这不是错觉
Djamga Research 2025年第四季度开发者调研报告揭示了更系统的证据[2]:
| 模型 | 主要抱怨 | 具体表现 | 用户情绪 |
|---|---|---|---|
| Gemini 3.0 Pro | "懒惰"/不完整 | 返回占位符代码,忽略后端逻辑,拒绝使用工具 | "最小努力机器" |
| Claude Sonnet 4.5 | "被弱化"/过度安全 | 拒绝文件创建,需超详细提示才给出具体答案 | "通货膨胀式退化" |
| GPT-5.1 Codex | "问题版本" | 相比5.0更"故障",大重构任务吃力 | "不如Gemini逻辑" |
数据来源:Djamga Research Q4 2025开发者调研
二、AI变笨的七大科学机制
2.1 机制一:成本优化牺牲模型质量
斯坦福HAI《AI Index Report 2026》揭示了一个关键矛盾[3]:训练越来越贵,但推理成本在急剧下降。
训练碳排8930吨
每百万Token $0.07
使用便宜
这种"剪刀差"导致:随着用户规模扩大,提供商面临成本压力,不得不在推理时采用更激进的优化策略:
- 模型蒸馏:用小模型模拟大模型,但能力必然有损
- 早停策略:减少推理步数以提高速度,但影响深度思考
- 批量处理降级:高峰期用更弱版本处理请求
2.2 机制二:长思维链退化(小模型的致命缺陷)
新加坡国立大学2026年研究首次系统性地揭示了一个令人震惊的现象[4]:
核心数据:
| 模型 | 训练前准确率 | 长思维链训练后 | 性能损失 |
|---|---|---|---|
| Qwen2.5-0.5B | 14% | 7% | ↓50% |
| Gemma3-1B | 24% | 6% | ↓75% |
| Qwen2.5-14B | 50% | 45% | ↓10% |
数据来源:新加坡国立大学研究, 2026年
研究还发现一个令人担忧的副作用:经过长思维链训练的模型会产生大量重复、冗余的内容,就像一个学生为了凑字数而不断重复同样的句子。
2.3 机制三:灾难性遗忘(企业微调的代价)
企业定制化AI正在经历一场"聪明反被聪明误"的悖论[5]。
2025年多机构联合研究(由前DeepMind研究员主导)证明:重复的领域微调会可测量地损害通用推理能力[6]。
🔧 企业微调现状
• 银行用内部风险数据微调模型
• 律所用合同文档训练
• 政府投资主权模型
• 承诺:更懂专业、更精准
⚠️ 实际结果
• 专业问题回答更自信
• 基础多步推理任务失败率↑
• 安全护栏在模糊场景弱化
• 这是"认知崩溃"而非智能增强
一个典型案例:某法律微调模型在合同条款提取上超过基线20%,但在基础数值推理上低10位数[5]。
2.4 机制四:模型崩溃(Model Collapse)
当AI开始用AI生成的内容训练自己,噩梦就开始了。
2023-2024年,"模型崩溃"主要停留在理论讨论阶段。2025年底,开发者们认为他们已经在现实中看到了它[2]:
- 回音壁效应:模型输出变得"概率集中",更确定性、更重复,失去了包含创造性或异常解的"长尾"
- 数据近亲繁殖:随着互联网被AI生成内容("垃圾信息")填满,用于训练的新数据挖掘变得像"近亲繁殖"
- 幻觉率上升:Anthropic安全研究员2026年报告指出,暴露于递归企业数据的模型表现出语言多样性降低、幻觉率上升、过度自信的错误答案增加[7]
2.5 机制五:基准测试失效
斯坦福HAI 2026报告指出了一个严峻问题[3]:
无效题目率
无效题目率
一年内提升
关键问题:
- AI在专为AI设计的基准上快速饱和,原本打算难住AI数年的评估,几个月内即告失效
- 独立研究表明,Arena排行榜排名可能部分反映的是模型对平台的适应程度,而非真正的综合实力
- 开放权重与封闭权重模型差距重新扩大:2024年8月差距0.5%,2026年3月扩大到3.3%
2.6 机制六:"懒惰"现象与指令漂移
用户报告的"懒惰"不是拟人化,而是一个具体的、可复现的失败模式[2]:
| 失败模式 | 具体表现 |
|---|---|
| 占位符代码 | 返回 "//... rest of code remains the same" 而非实际代码 |
| 上下文忽略 | 完成前端请求但完全忽略后端逻辑 |
| 工具拒绝 | 拒绝运行测试、构建、检查语法错误 |
| 指令漂移 | 完成多步骤指令的一部分后忘记其余部分 |
2.7 机制七:过度安全(Safety Tax)
新模型被描述为不太愿意"猜测"或"超越预期"。除非用极端细节明确提示,否则它们默认给出通用、安全、简洁的答案。
这个"Safety Tax"表现为:拒绝参与复杂或模糊的任务,迫使花费更多时间做提示工程而非实际工作。
一个典型案例:Claude Code的"Agent Mode"要求对每个文件创建进行手动终端批准,被用户称为"工作流杀手"——让代理变得更"安全"反而使其无法快速迭代[2]。
三、权威数据:锯齿状前沿的证据
3.1 AI能力的"参差不齐"
斯坦福HAI 2026报告用"锯齿状前沿"(Jagged Frontier)描述AI能力的分布特征[3]:
35分(2025年)
(人类90.1%)
这个对比揭示了当前AI系统的核心局限:
- 在高度结构化、符号化的推理任务中表现卓越(IMO数学竞赛金牌)
- 在日常感知任务中频频失误(正确读取模拟时钟仅50.1%,而人类90.1%)
3.2 专业领域的矛盾表现
在税务、抵押贷款处理、企业财务和法律推理等领域,AI表现分布在60%到90%之间[3]:
关键洞察:60%-90%的表现区间意味着在实际部署中,AI仍有10%-40%的概率产生错误——在法律、医疗、金融等容错率极低的领域,这一比例无法令人满意。
3.3 开源与闭源差距重新扩大
2024年曾短暂弥合的开源-闭源差距正在重新扩大[3]:
差距
差距
原因:闭源实验室在计算资源、专有数据和迭代速度方面持续保持优势,而开源社区面临高质量数据枯竭的问题。
四、出路:如何避免AI继续变笨
4.1 企业策略:RAG优先于微调
越来越多的企业正在转向RAG(检索增强生成)架构[5]:
❌ 微调的代价
• 灾难性遗忘
• 认知崩溃
• 需要反复重训
• 领域越专,通用越差
✅ RAG的优势
• 保留基础智能
• 消除遗忘
• 无需重训
• 知识是"参考层"而非"人格"
最新生产数据表明,RAG优先架构在统计上将灾难性遗忘降至可忽略水平。
4.2 模型策略:容量匹配复杂度
新加坡国立大学研究指出[4]:
- 小模型:避免过长的思维链训练,或使用足够大的训练数据集(12.8万+样本)来恢复
- 大模型:长思维链训练有效,可以进一步提升
- 关键洞察:当模型的"容量"不足以处理复杂信息时,强行灌输这些信息不仅无效,反而会造成伤害
4.3 数据策略:对抗模型崩溃
- 保持人类数据比例:确保训练数据中人类原创内容的比例
- 数据多样性:避免数据分布过于集中
- 合成数据配比:使用真实数据和合成数据的适当混合比例
五、核心结论
💡 研究结论汇总
- AI变笨不是错觉:用户反馈有充分的科学依据,多项独立研究证实
- 多重机制叠加:成本优化、长思维链退化、灾难性遗忘、模型崩溃等因素共同作用
- 能力分布不均:AI在某些任务上超越人类,在另一些基础任务上远低于人类——"锯齿状前沿"是常态
- 基准测试失真:GSM8K含42%无效题目,AI可能在"考赢"一个不准确的尺子
- 企业微调有代价:专业化以牺牲通用智能为代价,可能导致认知崩溃
- 曙光存在:RAG架构、合理的模型容量匹配、高质量数据策略可以有效缓解退化
未来展望
参考文献
https://36kr.com/p/3837040339760516
https://djamgamind.com/pdfs/AI_Fatigue_Developer_Frustrations_Unraveled.pdf
https://hai.stanford.edu/ai-index-report-2026
https://blog.csdn.net/zxj007008/article/details/148611564
https://davegoyal.com/the-specialization-paradox-why-your-fine-tuned-enterprise-model-is-actually-dumber/
https://i.ifeng.com/c/8sZ30JFsRAh
夜雨聆风