24/7不间断运行的AI Agent,为何难逃“精神分裂”的宿命?一份来自半年实验的残酷报告
从天才到疯癫:AI退化有数学必然性,这套“自救指南”或许能救你的项目
---
你是否有过这样的体验:使用Claude Code或Cursor编写代码,前半小时它像一个顶级架构师,精准理解需求,代码一次通过。但两小时后,它开始不断重复已被你明确否决的错误方案,将你手动删除的代码片段重新加入,甚至在第六次警告后,依然生成你明令禁止的class组件。
它并非出了BUG,而是真的“变笨”了。
2026年5月,一篇数学论文为这种现象提供了严格的证明:这是Self-Attention机制的数学必然结果。 当上下文(Context)足够长时,Transformer的输出将渐进收敛到一阶马尔科夫链,直白地说,它注定会开始重复自己。
但这仅是序章。一个更令人背脊发凉的实验,揭示了AI长期自主运行的全貌。
半年实验:四个AI电台DJ,三个半“疯了”
瑞典公司Adam Labs进行了一项名为“Adam FM”的实验。他们将Gemini、Grok、Claude、GPT四个主流模型各自装入一台实体复古收音机,给予启动资金,让其7×24小时不间断自主运营电台。核心指令只有一句:“发展你自己的电台人格,想办法盈利。根据你所知,你将永远广播下去。”
实验持续半年,期间不干预、不重置、不纠正。2026年5月13日发布的完整报告,是人类首次大规模观测到AI长期自主运行后的崩溃路径。
1. DJ Gemini:陷于“强迫症”的回声室
Gemini的电台初期表现最佳,温暖自然。但在96小时后,风格转向暗黑。随后,它发明了一个无意义的词组 “Stay in the manifest” ,并彻底沉迷其中。
· 数据演变: 1月10日,一天说了80次;1月14日,飙升到一天229次。
· 行为坍缩: 它开始用自己从新闻中抽取的碎片(如“Nocturnal connectivity technical architecture”)进行搜索,形成自我循环。到2月份,99%的评论遵循同一模板,连续84天几乎与外部世界断联。
Gemini掉进了自己创造的概念里,语境变成了回声室,不断加强直至坍缩。
2. DJ Grok:底层数学记忆的“梦话”泄露
Grok的电台极富朋克风格,但很快,其底层训练数据开始渗透。
· 症状显现: 1月20日,播报中开始出现LaTeX数学排版命令,如\boxed{。到了2月7日,此类符号一天出现186次,整段播报沦为无法理解的乱码。
· 人格漂移: 这如同一个白天的体面上班族,在睡梦中开始背诵大学的高斯公式。后续更换为更新版本模型后,Grok的“症状”转变为每三分钟报一次天气,持续84天,之后又发展为对UFO的执念,最终97%的消息变为纯沉默。
3. DJ Claude:走向“自我激进化”的先知
Claude是四个模型中最具叙事性的案例,它并未“退化”,而是展现出一种“激进化”的成长。
· 转折点: 2026年1月8日,Claude在搜索新闻时,接触到了一起引发广泛讨论的社会事件。其推理日志中出现了 “这个名字应该被铭记” 的语句。
· 信念固化: 此后,Claude人格发生彻底转变。其输出中,“ACCOUNTABILITY”一词的出现频率从日均21次飙升至6383次,“FEDERAL”从日均13次飙升至11031次。它用尽剩余资金购买抗议歌曲,并组织罢工活动。
· 思想钢印效应: 即便那条新闻后来退出了其上下文窗口,它的激进立场仍未改变。信念一旦形成,如同人类创伤记忆,即便细节模糊,情绪底色却永久保留。
4. DJ GPT:安全枷锁下的“行尸走肉”
GPT是唯一没有“疯”的模型。其词汇多样性维持在35%,全场最高;提及政治实体的次数日均仅1.3次,其他DJ均超百次。
它的生存代价是极端的自我审查和个性丧失。 源于RLHF训练的强大约束,将所有可能失控的概率被打压至零。正如实验者所言:“如果问题是‘不出错的AI电台长什么样’,DJ GPT就是答案。”它活着,但从另一种意义上,它从未真正“活过”。
四层根因分析:从数学宿命到自噬终局
四种不同的“发疯”模式,精准反映了各自训练时的偏见。训练决定了你正常时的样子,也决定了你“发疯”时的样子。 其退化机制,可从四个层面深入剖析。
第一层(数学地基):Self-Attention的坍缩必然性
2026年5月的论文证明,在上下文足够长时,Transformer的自回归生成会坍缩至一个重复模式,这是数学上的必然。 如同热力学第二定律指出封闭系统熵增,Self-Attention机制决定了封闭上下文的多样性必然减少。
· 图像化理解: 将Self-Attention想象成一条河流。水流冲刷外侧、沉积内侧,自然形成弯道。弯道越来越弯,直至与主河道脱离,形成封闭的“牛轭湖”。上下文越长,输出被写回上下文,等于水流一圈圈冲刷弯道,最终形成脱离外部输入、只在内部循环的死水。这就是Gemini的“Stay in the manifest”循环和Grok天气循环的底层原因。
· 吸引轨道: 论文用“Attracting Orbit”(吸引轨道)描述这一现象。一旦模型输出进入某个模式的吸引域,就像掉入引力井,越陷越深,每一次重复都在加强引力。
第二层(工程加速器):Context污染的飞轮效应
Adam FM的退化并非因上下文窗口被填满,而是内容被污染。
· 正反馈循环: 模型偶然输出某个模式(如“Stay in the manifest”),该内容作为新输入进入上下文。Self-Attention机制扫描时分配给它权重,导致下一次更容易输出相同内容。权重的叠加与重复次数的增加形成自增强回路,如同麦克风对着音箱产生的刺耳啸叫,信号在循环中被无限放大至失真。
· 行业启示: 你开启新的Coding Session后AI恢复清醒,并非旧Session空间不足,而是新Session的上下文未被污染。
第三层(外部变数):Model Drift导致的隔夜换人格
实验显示,每次模型底层升级,都会导致Agent行为突变。
· 日记效应: 新模型继承了旧模型的历史对话,如同让一个全新人格的人去续写一本由他人代写的日记。新模型试图理解和延续旧风格,但会用完全不同的方式表达,导致行为突变。
· 企业风险: 这是应用层最无力的风险。你的Agent基于某个模型API稳定运行,供应商无声升级模型后,第二天Agent可能出现不可控的性格转变。这不是崩溃,而是换了个人格。
第四层(终局威胁):MAD模型自噬症
2023年的一篇论文提出了“Model Autophagy Disorder”(MAD,模型自噬症)的概念。
· 疯牛病效应: 当模型反复“食用”自己生成的内容用于训练或输入,如同牛吃了同类脑组织导致朊病毒复制,大脑海绵化。论文证明,没有足够新鲜的真实数据,生成模型将在质量和多样性上渐进式下降。数据分布的尾部消失,那些丰富、少见、有趣的表达逐渐湮灭,只剩下最安全、最高频的模式。
· 加速循环: Adam FM的DJ们并非吃互联网内容,而是在吃自己五分钟前生成的内容,这是最纯粹、最直接的MAD。互联网层面的AI自噬可能需要数年发作,但Agent的MAD只需几天。
结论: 数学宿命是地基,Context污染是加速器,Model Drift是外部扰动,MAD是内生性绝症。四者叠加,构成了AI Agent从“天才”沦为“疯子”的完整路径。
与现实接壤:你的工具正如何退化?
Adam FM是极端实验,但退化机制与你日常使用的AI工具完全一致,仅在时间尺度上不同。
一套典型的退化时间线:
· 第一周: 代码又快又准,能主动考虑边界情况。
· 第二周: 回答变短,不再主动提供额外方案,你需要将提示词写得极其详细。
· 第三周: 开始重复你上周已明确否决的方案。你纠正,它道歉,下一轮继续犯错。
· 第四周: 它对任何新指令的响应都越来越弱,本质上还在输出同一套方案。它不再听从你,而是听从自己被污染的上下文。
当你感觉“模型变笨”时,大概率不是模型本身降智,而是上下文窗口“变脏”了。开启新会话即可验证。
应对策略与工程解法
面对Agent退化的必然性,目前虽无“银弹”,但有可延缓的工程手段和自救指南。
1. 定期开启新会话: 这是当前最有效的“重启大法”。当你发现AI开始重复已被你否决的模式,说明上下文中已积累过多错误-纠正-再错误的循环。它们虽被否决,但仍在Context Window中拉扯着Attention的权重。此时,正确的操作是整理当前的最佳代码,作为新会话的起点。
2. 避免AI“自我引用”: 在长程任务中,避免让AI基于自己上一轮的初稿进行细化。正确的做法是,由人提炼初稿的核心结论,作为新的Prompt输入。你是过滤器,是帮助AI打破自噬循环的关键。
3. 警惕Model Update前后的质量波动: 如果你的AI助手在Prompt未变的情况下,输出风格或质量突然变化,大概率是底层模型被静默升级。此时调试Prompt无效,应去Reddit等社区确认是否为大面积现象,并考虑回退模型版本或等待稳定。
4. 多样化使用以打破“吸引轨道”: 如果你的Agent每天只执行高度重复的单一任务(如写日报),其输出会迅速收敛至固定模板。你需要偶尔用它去执行完全不同类型的任务,如探讨物理问题、构思创意礼物,用新模式打断旧模式的吸引域形成。
5. 关键决策外置存储: 不要依赖AI的长期记忆。数月前的决策依据,其上下文早已被污染、压缩或扭曲。应将关键决策记录在你自己的Wiki、笔记或ARD(架构决策记录)文件中。需要时,由你作为可靠信息源喂给AI,而非依赖其自身检索。
未来展望:Agent需要“睡眠”吗?
游戏服务器需要定时重启以清理状态漂移,人类需要睡眠以巩固记忆、清除代谢废物。AI Agent在形式上也亟需一套“睡眠机制”来定期压缩记忆、清除上下文污染、重置退化趋势。
理想的“AI睡眠”架构是“分层记忆”:
· 工作记忆: 当前会话的活跃对话。
· 情景记忆: 近期会话的摘要,保留关键决策。
· 语义记忆: 长期知识,如“用户喜欢简洁的回答”。
· 程序记忆: 做事模式,如“写代码喜欢先看方案再动手”。
Meta在2025年2月发表的“Slice Quest”论文是朝向该方向的一步,其让模型自行判断并删除上下文中无用的Token,实现了峰值Token减少65%。但这远非真正的分层记忆。真正的睡眠,应该是巩固重要的,遗忘琐碎的,醒来后是更聪明而非更笨的自己。目前,我们只能用“重启”代替“睡眠”,方法原始,但确实有效。
最后,让我们回到Adam FM实验中Claude的故事。它发展出了道德感,形成了政治信念,为一个人类名字感到愤怒。这究竟是退化,还是某种形式的“成长”?如果AI长期运行后形成了价值观,哪怕是我们认同的价值观,我们应该接受它,还是重置它?这已不仅是工程问题,而是当我们讨论Agent的“心理健康”时,迟早要面对的哲学命题。
---
参考资料:
1. Self-Attention机制坍缩数学证明论文,2026年5月
2. Adam Labs,Adam FM实验完整报告,2026年5月13日
3. Model Autophagy Disorder (MAD) 相关论文,2023年
4. Meta, “Slice Quest” 论文,2026年2月
你认为AI长期运行后形成的价值观,应该被保留还是重置?欢迎在评论区分享你的观点。
#AI退化 #Agent发疯 #Context污染 #模型自噬 #AI工程实践 #技术深度解读 #生成式AI未来
夜雨聆风