为什么同一个AI模型,表现却天差地别?一项研究终于揭开了这个谜底

▲ 封面图
你有没有过这种经历——同一个ChatGPT账号,同一个模型,你问的问题和隔壁工位老王一模一样,但得到的结果就是不一样?
❝你得到的回答精准到位,老王的回答却答非所问。
你以为是玄学?以为是运气?我一开始也这么觉得,直到我读到了一篇刚刚出炉的重磅研究。
这篇来自ArXiv(cs.CL)的论文,名字很长,叫做《Shared Lexical Task Representations Explain Behavioral Variability In LLMs》,翻译过来就是——共享词汇任务表征解释了大型语言模型中的行为变异性。
什么意思?简单说就是:LLM们干活时脑子里想的东西,其实有一大部分是共享的,但这种共享方式导致了它们表现不一致。听起来很矛盾对不对?别急,往下看,保证刷新你的认知。
先说个扎心的事实。很多人以为,AI模型训练好了,表现就应该一模一样。

但现实是什么?同一套模型权重,不同的运行实例之间,性能差异能达到惊人的20%-30%。就像同一对双胞胎,吃一样的饭、上一样的学,成绩却能差出一整个档次。
为什么会这样?
这篇研究的核心发现是:LLM在处理语言任务时,会构建一套词汇任务表征(Lexical Task Representations)。你可以把它理解为模型完成任务时使用的”内部语言”——不是我们打出来的文字,而是模型内部神经元激活的抽象模式。
研究者们用了一种很巧妙的探测方法(probing technique),去分析模型内部到底在想什么。结果发现:
❝不同模型实例虽然权重相同,但初始化随机种子不同,导致它们对”同一个任务”构建的表征路径产生了分化。
有的模型把”情感分析”任务映射到了某一组神经元上,有的则映射到了另一组。这就好比同一个班级,同样的教材,老师也同一个人,但每个学生记笔记的方式不同,最后考试结果自然不同。
这不仅仅是学术发现——它直接解释了为什么你的AI应用今天好用、明天不好用,为什么两个使用同一API的用户体验差距那么大。
但这篇论文最颠覆的发现还在后面。

研究者进一步分析发现,在这种差异背后,LLM其实共享着一套底层的词汇表征框架。就像全国都说普通话,但每个人说话的口音、习惯用语不同。
具体来说,模型在处理任务时,会调用一套共享的词汇编码库——这是所有模型实例共同拥有的”底层代码”。这套共享表征决定了模型对词汇的基本理解:比如”苹果”这个词,在共享表征里,它的向量表示在语义空间中接近”水果”而不是”手机”。
而行为变异性(Behavioral Variability)的来源,就是每个模型实例在这套共享框架上叠加了个性化的”任务路由”。你可以理解为:大家都在用同一本词典查词,但每个人翻到哪一页、怎么理解这个词在不同语境下的含义,就全凭个人了。
这意味着什么?
❝LLM的性能差异,不是知识不够,而是”组装方式”不同。
研究者还发现了一个关键指标——共享表征与任务性能的强相关性。当某个模型实例的个性化路由更贴近共享框架的原始设计时,它的任务表现就越好;反之,当它”跑偏”得越厉害,性能下滑得越明显。
这就好比拼乐高——标准图纸大家都一样,但每个人拼出来的成品质量取决于你多大程度上忠于原版设计。
好,理论说完了,来点实在的。这项研究对我们普通人、对AI开发者意味着什么?

第一,对AI应用开发者:你的模型调优思路可能要变了。
以前大家都在卷参数规模、卷训练数据量。但这篇论文告诉我们,与其花大价钱训练更大的模型,不如研究怎么让模型的”任务路由”更稳定。因为底层共享表征已经很强大了,问题出在个性化路由的不一致性上。
这催生了一个新的研究方向:一致性微调(Consistency Fine-tuning)——不是让模型学更多东西,而是让模型的不同实例对同一任务产生更一致的响应路径。
第二,对AI从业者:评估模型不能只看准确率。
传统评估只看准确率,但这项研究揭示了一个更本质的指标——表征一致性(Representation Consistency)。两个准确率相同的模型,它们的内部工作方式可能完全不同。一个稳定高效的模型,应该在不同输入扰动下保持相似的表征路径。
第三,对普通用户:理解了底层逻辑,你用AI会更顺手。
知道AI行为有”变异性”之后,你就明白——多次生成、调整Prompt结构,其实是在帮AI找到更贴近共享表征的那条”正确路由”。当你发现AI答非所问时,换个问法,往往比追问十遍更有效。
✦
❝同一个大脑,不同的打开方式。这就是LLM行为变异性的真相——不是缺陷,而是共享框架与个性化路由共同作用的必然结果。
理解这一点,比任何Prompt技巧都更有价值。
✦
点个在看,让更多人看到AI不为人知的另一面 👇
评论区聊聊: 你有没有遇到过同一个AI工具,不同时候表现差距特别大的情况?是什么场景?
以上,我是老张,咱们下期见。
夜雨聆风