爱可可AI前沿推介(6.1)

LG - 机器学习 CV - 计算机视觉 CL - 计算与语言 AI - 人工智能

1、[CL] Simulating Human Memory with Language Models
2、[AI] Geometry of Human Perceptual Domains Emerges Transiently in LLM Representations
3、[LG] Parallax：Parameterized Local Linear Attention for Language Modeling
4、[LG] DiscoverPhysics：Benchmarking LLMs for Out-of-the-Box Scientific Thinking
5、[LG] From Simulation to Enaction：Post-trained language models recognize and react to their own generations

摘要：基于语言模型的人类记忆模拟、人类感知领域的几何特征在LLM表征中呈瞬态涌现、面向语言建模的参数化局部线性注意力机制、衡量大语言模型“跳出框架”式科学思维的基准测试、后训练语言模型对自身生成内容的识别与响应

1、[CL] Simulating Human Memory with Language Models

Q Wang, N Tomlin, M Hu, B Dillon…
[NYU]

基于语言模型的人类记忆模拟

要点:

挑战了“AI的记忆越好就越有用”的直觉认知，指出超人类的完美记忆力反而使得大语言模型（LLM）在教育等以人为本的场景中，无法胜任“人类用户模拟器”的角色。
揭示了单纯的提示词工程（如“扮演一个记忆力有限的人类”）或简单的上下文摘要，根本无法让前沿大模型产生真实、符合人类规律的遗忘现象。
证明了上下文学习（ICL）在认知模拟中的局限性：向大模型展示人类犯错的少样本示例（Few-shot）仅对当前特定任务有效，无法迁移到测试相同底层认知功能的其他记忆任务上。
指出了一个有趣的“遗忘恐怖谷效应”：即使大模型在总体错误率上与人类对齐，其犯错的具体模式也极其“反人类”。例如，在数字记忆任务中，人类遗忘通常表现为漏掉后面的数字（截断），而大模型往往能准确猜对总长度，只是随机把中间的某个数字填错。
提出了 COMPACTOR 架构，这是一个受认知科学启发的智能体，严格限制其只有4个键值对记忆槽，这直接呼应了心理学中关于人类工作记忆容量的“神奇数字4”理论。
实验证明，相较于软性的提示词策略，像 COMPACTOR 这样在结构/架构上施加硬性认知瓶颈的方法，能显著更好地将大模型的得分分布与人类真实行为数据对齐。
通过一个教育领域的下游任务验证了“有缺陷的AI”的实用价值：拥有完美记忆的原生大模型会错误地认为人类能记住所有复杂的干扰文本；而具备类似人类记忆瓶颈的 COMPACTOR 能够更准确地预测出真实学生到底能看懂并记住哪个版本的阅读材料。

主旨：本文主要提出了现有大语言模型因具备“超人类”的完美记忆力，导致其无法真实模拟人类在认知和交互过程中的遗忘行为，从而难以胜任高质量的“用户模拟器”的问题。为此，文章探讨了如何通过引入认知科学理论，为大模型施加符合人类心理学规律的工作记忆瓶颈，使其表现出类似人类的记忆与遗忘特征。

创新：

构建了一个由10个经典认知心理学任务（如数字广度、N-back、地图记忆等）组成的基准测试，专门用于量化评估大模型与人类在记忆分布上的差异。
摒弃了传统的软性提示词（Prompt）伪装，创新性地提出了 COMPACTOR 智能体框架，利用大模型的工具调用能力（Tool-use），强制将其上下文压缩至只有4个插槽的键值对存储模块中，在机制上硬性复现了人类工作记忆的“组块（Chunk）”限制。

贡献：

数据与基准：开源了一个包含人类真实对照数据（N=50）和多维度记忆任务的评测基准，填补了量化AI人类记忆模拟程度的空白。
行为学洞察：通过细粒度分析，揭示了大模型即使在特定策略下错误率上升，其“遗忘模式”及条件错误概率与人类真实认知规律仍存在根本性差异。
方法验证：证实了基于认知科学原理的结构化约束（COMPACTOR）比自然语言指令（提示词）更能有效地逼近人类真实行为。
应用示范：在真实的阅读理解难度评估任务中，证明了具有“类人记忆”的模拟器能更准确地预测教材难度对学生记忆效果的影响，为教育AI的评估提供了新范式。

提升：

在衡量人类与模型得分分布相似度的 Humanlikeness 指标（基于 Wasserstein 距离归一化）上，COMPACTOR 相比于基础提示词（TASKPR）和模拟人类提示词（HUMPR），在数字广度、N-back、单词识别等工作记忆任务上实现了显著的数值提升（最高提升超过 0.60）。
在预测人类对不同教育文档阅读理解难度的 Pairwise Reranking Accuracy（成对重排准确率）下游任务中，相比基础模型，使用 COMPACTOR 的 Llama 3 8B 模型准确率实现了 18% 的绝对提升，显著超越随机选择水平。

不足：

细节遗忘模式的拟合仍有欠缺：尽管 COMPACTOR 宏观上对齐了分数分布，但微观的错误模式（如连错概率）仍与人类不同，这意味着大模型依然没有真正像人类一样思考和遗忘。
任务与能力覆盖面有限：当前的基准主要集中在“文本进-文本出”的工作记忆和情景记忆上，未涵盖视觉记忆或语义记忆。
个体差异建模不足：现有方法仅试图模拟人类群体的平均行为或总体分布，尚不能通过调节参数来模拟具有不同记忆容量的特定个体或人类多样性差异。
下游任务表现仍有天花板：即使是表现最好的 COMPACTOR 模型，在文档难度排序任务中的准确率仍低于 70%，距离完美的教学评估模拟器还有很大差距。

心得：

“缺陷”即是“智能”的另一面：在评估AI系统（尤其是通用大语言模型）时，我们往往追求更高的准确率和更长的上下文窗口。但这篇论文深刻启发我们，如果AI的终极目标是服务、协作甚至教导人类，那么“理解人类的局限性”比“超越人类的能力”更重要。制造完美的机器相对容易，但制造“能完美模仿人类不完美的机器”则是全新的挑战。
认知科学是AI架构设计的宝库：论文中仅仅是借用了心理学中极其经典的“工作记忆容量为4个组块”这一理论，并将其具象化为代码中的4个 KV 缓存槽，就取得了比复杂的提示词工程好得多的效果。这说明未来的AI对齐和拟人化研究，不应只在文本概率上做文章，更应该深入挖掘脑科学和认知科学的先验知识，将其转化为AI的硬性架构约束。
警惕 AI 评测的“表面对齐”：大模型可以通过 Few-shot 学习在宏观错误率上与人类相似，但其背后的错误机制（如把序列中间的数字随机猜错，而不是像人类一样因为认知负荷超载而截断）暴露了其本质的“非人性”。这提示我们在做大模型评测时，绝不能只看总体 Metric，必须深入到微观的 Error Analysis 中，才能发现 AI 是否真的具备了我们所期望的认知过程。

一句话总结: 本文通过一项涵盖10个心理学任务的基准测试，揭示了前沿大模型因记忆力过于完美而无法真实模拟人类行为，并创新性地提出受人类工作记忆“神奇数字4”启发的 COMPACTOR 架构，通过强制缩减记忆容量，成功让AI学会了“像人类一样遗忘”，从而在预测人类学习难度的教育场景中发挥出更大价值。

Language models are increasingly being deployed as user simulators, but their memory is far more reliable than that of real users. To measure this gap, we run a series of classic memory experiments from psychology on both humans and language models. Across tasks, we find that out-of-the-box language models exhibit better memory than humans, even when prompted to imitate human behavior. We then show that better prompting strategies and the use of a compactor can cause language models to forget content in a more human-like way. Using these methods, we show preliminary evidence that language models with human-like memory constraints can function as more effective user simulators in a downstream education task. Finally, we release human reference data and benchmarks to support future work on simulating human memory with language models.

https://arxiv.org/abs/2605.25680

2、[AI] Geometry of Human Perceptual Domains Emerges Transiently in LLM Representations

S Singh, P Chopra
[Indian Institute of Technology Roorkee & Lossfunk]

人类感知领域的几何特征在LLM表征中呈瞬态涌现

要点:

揭示了一个极具反直觉的现象：尽管大语言模型没有任何感官基础（没有视觉、听觉或味觉），它们仅凭文本的共现统计数据，就能在内部发展出与人类感知领域（颜色、音高、情感、味觉）高度一致的丰富几何结构。
发现了感知几何的“短暂涌现（Transient Emergence）”特征：挑战了“网络层数越深，语义表征越好”的传统认知。研究表明，感知几何在早期层较弱，在中间层达到高度组织化，而在较深层（随着模型开始优化特定任务的下一个Token预测）主动退化和减弱。
发现不同感知模态具有不同的逐层生命周期。例如，“情感”的几何结构在深层中保持相对稳定；而“味觉”的几何结构在早期达到顶峰后迅速退化为噪声。“音高”形成了连续的关系弧，“颜色”则在中间层形成了平滑的圆形流形（色环）。
采用了一种完全内在的、无需探针（Probe-free）的方法论：使用极简提示词（例如“The description of color given as #HEXCODE”）提取残差流激活值，避免了引入额外的语义偏差或依赖训练好的分类器。
严谨地量化了人类与AI的对齐度：使用多维缩放（MDS）和Isomap降维模型表征，并通过表征相似度分析（RSA）和广义普氏分析（GPA），将其与成熟的人类心理物理学基准（如CIELAB颜色空间、ANEW情感空间）进行对比。
提供了一个机制可解释性（Mechanistic Interpretability）方面的新见解：感知组织是大模型内部信息转换流水线中的一个“中间处理阶段”，而不是最终的输出状态。

主旨：本文旨在探究完全基于纯文本训练的大语言模型（LLMs），其内部表征是否会自发形成与人类感官和知觉（如颜色、音高、情感、味觉）相一致的几何结构。文章重点追踪了这些感知几何结构在Transformer架构的不同网络层中的演变轨迹，以揭示人类的感知体验是如何在语言模型内部被编码和转化的。

创新：

无损/无探针提取方法：没有使用传统的微调或训练线性探针（Linear Probes）的方法，而是仅使用极简的提示词直接提取模型的残差流激活值进行几何分析，确保了观察到的结构是模型内生的（Intrinsic），而非探针引入的。
逐层动态轮廓分析（Layer-wise Profiling）：突破了以往只关注模型最后一层或输出结果的局限，创新性地描绘了感知表征在整个网络深度上的“轨迹”，从而捕捉到了表征结构从无序到有序，再到退化的动态过程。

贡献：

证实了语言本身蕴含了高度结构化的物理和感知现实，LLMs无需多模态数据即可在隐空间中重构人类的感官几何（如色环、连续音高弧）。
首次提出了“短暂涌现（Transient Emergence）”现象，证明了感知几何在LLM中并非均匀存在，而是作为中间处理步骤在中间层达到顶峰。
对比了多种不同感知域（颜色、音高、味觉、情感）的演化特征，揭示了不同概念在模型内部具有不同的稳定性和生命周期。

提升：

可解释性视角的提升：虽然本文不涉及传统意义上模型性能指标的提升，但它在“机制可解释性”领域取得了重要突破。它为“到模型的哪里去寻找最纯粹的物理/世界模型表征”提供了精确的指导（即中间层），相比于盲目使用最后一层特征，这一发现显著提升了表征工程（Representation Engineering）和概念提取的精准度。
对齐度量化：通过引入RSA和GPA等度量标准，提供了一套可复用的、量化LLM内部几何与人类心理物理学基准对齐程度的标准流程。

不足：

机制解释的缺失：本文主要是描述性的，虽然定位了感知几何“在哪里”以及“如何”演变，但未能从机制上解释“为什么”会形成这种结构（例如，是哪些注意力头或MLP神经元促成了色环的形成或后期的退化）。
模态覆盖有限：实验仅覆盖了四种感知域（颜色、音高、情感、味觉），结论在更多样化的感官体验或更抽象的概念上的普适性仍需验证。
度量方式的局限：仅使用了RSA和GPA来捕捉几何对齐度，可能会遗漏其他高维非线性空间中的重要组织特征。同时，几何结构的相似性并不能等同于模型具备了人类的“主观体验（Qualia）”。

心得：

语言是现实世界的高保真镜像：大模型仅仅通过阅读海量文本中的词汇共现频率，就能在多维空间中完美重构出颜色在光谱上的物理连续性或情感的效价-唤醒度二维平面。这深刻启发我们，人类语言绝不仅仅是交流工具，它的统计分布中已经完美编码了人类的所有感官经验和物理世界的几何规律。
“越深越好”是一个认知误区：我们在使用大模型提取特征时，往往习惯取最后一层的Embedding。但这篇论文给出了极具价值的反直觉结论：最能反映人类感知和世界模型的几何结构其实隐藏在“中间层”。最后一层为了完成 Next-token prediction 的终极任务，反而破坏了这种纯粹的几何美感。这对于指导大模型知识编辑和特征控制具有极大的启发。
不同概念的“认知深度”不同：研究发现味觉结构早早崩溃，而情感结构在深层依然稳定。这或许暗示了在语言模型（甚至人类语言本身）中，某些概念（如情感）与高级抽象逻辑的绑定更深，而某些概念（如味觉）仅仅作为浅层的词汇映射存在。这为研究语言学中的概念接地（Symbol Grounding）提供了全新的AI视角。

一句话总结:
本文通过纯内在的降维与对齐分析，揭示了一个高度反直觉的现象：大语言模型仅靠文本统计就能自发构建出与人类视觉、听觉等感官高度一致的几何结构（如色环），且这些几何美感只在模型的中间层短暂达到巅峰，并在深层由于任务特化而逐渐退化，证明了感知结构只是大模型内部信息加工的过渡阶段。

While large language models (LLMs) are trained purely on textual data, prior work has shown that their internal representations can exhibit rich geometric structure in embedding space. Building on this line of work, we investigate whether such structure is similar to human perceptual organisation across different domains (e.g., color, pitch, emotion, and taste). Specifically, we study the layer-wise emergence of intrinsic geometrical structure corresponding to perceptual modalities within the residual streams of multiple openweight transformer architectures. Our results reveal three key findings. First, we observe the emergence of layer-wise geometric structure across multiple perceptual domains, despite the absence of any direct perceptual supervision during training. Second, these perceptual domains exhibit distinct emergence profiles, with both geometric structure and its alignment with human baselines following domain- and model-specific trajectories across depth. Third, this emergence follows a consistent representational trajectory: geometry is weak or diffuse in early layers, becomes progressively organised in intermediate layers, and is attenuated in later layers, suggesting that perceptual geometry arises transiently as part of the model’s internal transformation pipeline. This provides new insight into how and where human-like perceptual geometry arises in LLMs, offering a principled pathway for mechanistic analysis of internal representations.

https://arxiv.org/abs/2605.27970

3、[LG] Parallax: Parameterized Local Linear Attention for Language Modeling

Y Zuo, D Pai, Z Zeng, A Dewulf…
[Northwestern University & Tilde Research & University of Washington]

Parallax：面向语言建模的参数化局部线性注意力机制

要点:

提出了Parallax，一个可扩展的局部线性注意力（LLA）版本。它将传统Softmax注意力的零阶（局部常数）估计，升级为理论上更强大的、具备更优偏见-方差权衡的一阶（局部线性）估计。
解决了LLA难以扩展的核心问题：通过引入一个单一的可学习投影矩阵（WR），用其作为参数化的“探针”来近似键值（KV）协方差，从而取代了原先计算开销巨大且需逐个Token求解的数值求解器。
揭示了一个全新的、极具反直觉性的“优化器-架构协同设计”现象：Parallax的性能优势只有在使用Muon优化器时才能被“解锁”，而在使用标准的AdamW优化器时，其优势会大幅减弱甚至消失。
将Parallax的结构形式化为对标准Softmax注意力的一个“加性修正”，即 输出 = Softmax输出 - KV协方差 - 探针。这种仿射结构产生了一种“幅度张力”，只有像Muon这样具备良好条件（well-conditioned）的优化器才能有效学习。
为Parallax开发了一种硬件感知的流式算法，通过复用KV数据流并行计算协方差分支，提升了算术强度。其定制的解码核函数在性能上持平或超越了FlashAttention 2/3。
提供了强大的实验证据，通过预训练0.6B和1.7B模型，证明了Parallax结合Muon优化器，在严格的参数匹配和计算量匹配的对照实验下，依然能在困惑度和下游任务上稳定优于Softmax注意力。
机制分析表明，Muon优化器能维持投影矩阵（特别是WRK环路）的高稳定秩，从而使协方差探针发挥作用；相比之下，AdamW会导致谱坍缩，模型会学着“关闭”这个修正分支。
展示了Parallax独特的行为模式：它能产生负值的注意力分数（主动减去无关信息），显著减少了对初始Token的“注意力沉洞”现象，并且其基础Softmax分布更为平滑（熵更高）。

主旨：本文旨在解决局部线性注意力（Local Linear Attention， LLA）虽然在理论上优于标准Softmax注意力，但因计算复杂和数值不稳定而无法应用于大语言模型预训练的问题。为此，论文提出了Parallax，一个参数化的、可扩展的LLA变体，使其在保持理论优势的同时，能够高效地进行大规模训练，并深入探究了其性能表现背后独特的优化器-架构协同作用。

创新：

架构创新：首次将理论上的LLA成功参数化，用一个学习到的R投影矩阵作为“探针”，来直接近似复杂的KV协方aras，从而绕过了原方法中代价高昂的逐例线性系统求解，实现了效率和性能的平衡。
协同设计发现：首次在注意力机制研究中发现并系统性验证了“优化器-架构协同设计”的强依赖关系。明确指出Parallax的仿射修正结构与Muon优化器的良好条件特性之间存在正向耦合，而与AdamW的谱坍缩特性存在负向耦合，这是一个突破性的实证发现。
算法与核函数创新：提出了一个比FlashAttention算术强度更高的硬件感知流式算法，并通过定制的CuTeDSL解码核函数，在实际硬件上实现了超越FlashAttention 2/3的解码速度，展示了从理论到实践的全面优化。

贡献：

模型贡献：提出了Parallax这一新型注意力机制，它在0.6B和1.7B规模上被证实是一个帕累托更优的架构，即在性能提升的同时，推理延迟更低。
实证贡献：提供了详尽的预训练和下游任务评估结果，包括严格的参数和计算量匹配对照实验，为Parallax的有效性提供了坚实的证据。
理论贡献：通过深入的机制分析（如稳定秩、修正项贡献率、门控行为），为理解注意力机制与优化器动态之间的复杂相互作用提供了新的视角和分析工具，并丰富了“注意力即检验时回归”的理论框架。

提升：

模型性能：在0.6B和1.7B两个规模上，Parallax（配合Muon）在LAMBADA和WikiText的困惑度指标上均显著优于基线Transformer，并在多个下游零样本问答和常识推理任务上取得了更高的平均分。
计算效率：在解码阶段，定制的Parallax核函数在各种批量大小和上下文长度配置下，速度均持平或优于FlashAttention 2和FlashAttention 3，实现了性能和效率的双重提升。
联想记忆能力：在专门为评估序列混合器设计的MAD合成基准测试中，Parallax在上下文检索（In-Context-Recall）相关任务上表现出显著优势，尤其是在长上下文和高难度设置下。

不足：

对优化器的强依赖性：Parallax的成功高度依赖于Muon优化器，这可能限制了其在普遍使用AdamW的现有训练框架中的直接适用性，需要用户更换优化器才能获得最佳效果。
理论解释尚不完备：虽然论文通过实证和机制分析清晰地展示了优化器-架构的相互作用，但对于这种现象背后的精确数学原理和理论保证仍有待进一步探索。
更大规模的验证缺失：目前的实验规模最大到1.7B，该架构在更大规模（如70B+）模型上的扩展性和表现仍有待未来的工作验证。

心得：

架构与优化器不可分割：这篇论文最震撼的启示是，一个新的神经网络架构可能不是普适的，它的潜力可能被特定的优化器“锁定”。我们不能再孤立地评估架构和优化器，未来的研究必须进入“协同设计”的范式。Parallax就像一把需要特定钥匙（Muon）才能打开的锁，而AdamW这把万能钥匙却失灵了。
从“近似”到“参数化”是架构创新的有效路径：很多理论上更优但计算复杂的数学模型（如LLA）难以落地，本文提供了一个绝佳的范例：识别出复杂计算中的核心变量（LLA中的ρ向量），并用一个简单的、可学习的神经网络模块（WR投影）去直接拟合它。这种“参数化”思想是连接理论与实践的强大桥梁。
深入硬件的算法优化是架构研究的“最后一公里”：一个新架构即使理论再好，如果比现有SOTA慢，也很难被采纳。Parallax团队通过深入分析计算依赖图，设计出比FlashAttention算术强度更高的算法，并亲手编写CUDA核，最终实现了“更快且更好”，这为AI架构研究树立了一个从理论、到模型、再到系统实现的全栈标杆。

一句话总结: 本文提出了一个理论更优且可扩展的注意力机制Parallax，它通过一个创新的可学习“探针”来参数化复杂的局部线性注意力，并配合一个比FlashAttention更快的定制解码核实现了帕累托改进；其最核心和反直觉的发现是，Parallax的强大性能极大依赖于Muon优化器，首次揭示了注意力架构与优化器之间深刻的协同设计关系。

Large Language Models (LLMs) have become the central paradigm in artificial intelligence, yet the core computational primitive of attention has remained structurally unchanged. Local Linear Attention (LLA) is an attention mechanism derived from nonparametric statistics in the test-time regression framework. In contrast to prior research on efficient attention variants, LLA upgrades the local constant estimate in softmax attention to a local linear estimate, yielding provably superior bias-variance tradeoffs for associative memory. However, LLA has not been scaled in LLM pretraining due to computational and numerical stability concerns. We introduce Parallax, a parameterized Local Linear Attention that is scalable for LLMs. Parallax eliminates the numerical solver in LLA and learns an extra query-like projector that probes the KV covariance. We place Parallax within a family of attention mechanisms connected by the bandwidth, the probe construction and the affine structure. We propose a hardware-aware algorithm that increases the arithmetic intensity over FlashAttention, shifting attention into a more compute bound regime. Our prototype decode kernel matches or outperforms FlashAttention 2/3 across diverse batch sizes and context lengths. We pretrain Parallax at 0.6B and 1.7B scales and find consistent perplexity improvements throughout pretraining with gains that transfer to downstream benchmarks. The advantage persists under both parameter-matched and compute-matched controls, demonstrating a Pareto improvement. We perform careful pretraining ablations and identify a novel phenomenon whereby Muon unlocks the capacity of Parallax. To our knowledge, this is the first empirical demonstration of strong architecture-optimizer codesign for attention mechanisms in the architecture research literature.

https://arxiv.org/abs/2605.29157

4、[LG] DiscoverPhysics: Benchmarking LLMs for Out-of-the-Box Scientific Thinking

M L. Wiemann, L M. Smith, P Melchior, S Mishra-Sharma…
[Princeton University]

DiscoverPhysics：衡量大语言模型“跳出框架”式科学思维的基准测试

要点:

引入了 DISCOVERPHYSICS，这是一个新的交互式基准测试，要求大语言模型（LLM）在一个模拟的 N 体世界中发现非标准的物理定律（例如：屏蔽引力、随时间变化的相互作用、隐藏的暗物质），从而有效区分模型是真正具备科学推理能力，还是仅仅在回忆教科书上的既有知识。
采用双轴评估体系：经验预测准确性（在保留数据上的轨迹 MSE）和概念理解能力（由 LLM 根据人类编写的评分标准给出的解释得分）。
关于能力脱钩的反直觉发现：高预测精度并不等于科学理解。GPT-5.5 实现了最低的 MSE（极佳的曲线拟合能力），但其解释得分较低，因为它倾向于过早锁定假设并直接拟合数据，而不去修正其概念认知。相反，Claude Opus 4.7 能够通过多轮实验不断完善其概念理解。
开源模型中的“自主性鸿沟”：开源模型（如 Llama-3.3 和 Qwen-3.5）在“主动设计实验”和“接收纯随机实验数据”两种模式下，表现几乎没有差异。这暴露了当前开源模型在真正的实验设计能力上存在严重缺陷。
即使是前沿模型，在需要发现潜在结构（如不可见粒子、额外维度）的物理世界中也一贯表现不佳，凸显了 AI 在跳出框架进行假设生成方面的巨大障碍。
高信息熵的失败模式分析：尽管通过率相似，但不同模型的失败方式截然不同。Claude 经常在文本中推理正确，却写出矛盾的 Python 代码（执行失败），或者将真实的物理效应误判为噪声；而 GPT-5.5 则难以想象非标准定律（先验知识瓶颈），并在处理 ODE 数值边缘情况（如）时频频出错。
证明了前沿模型（如 Claude）能够根据极端的观测噪声（高达 50%）调整其实验策略，通过战略性的长期测试成功识别噪声并减轻其影响。

主旨：本文旨在解决当前 LLM 评估中难以区分“真正的科学发现推理”与“单纯回忆已有科学知识”的难题。为此，论文提出了 DISCOVERPHYSICS 交互式基准，要求 LLM 扮演科学家，在一个物理定律被故意篡改（与现实世界不同）的模拟环境中，通过自主设计实验、观察轨迹数据并迭代修正假设，最终推导出该世界的物理法则。

创新：

非标准物理世界的构建：摒弃了现实中的标准物理定律，精心设计了 22 个具有反直觉规则的世界（如分数阶引力、带有额外维度的库仑力、隐藏的“暗物质”粒子等），从根本上杜绝了模型依靠训练数据记忆作弊的可能性。
动态交互式实验循环：模型不再是静态地做题，而是必须在一个实时的 N 体模拟器中主动设定粒子的初始条件、测量时间，并可以使用 scipy.optimize 工具拟合数据，模拟了真实的科学探究闭环。
双轨评估机制：创新性地将“预测精度”（轨迹 MSE）与“概念解释”（基于专家标准的人工智能打分）分离开来，使得评估不仅看重“拟合结果”，更看重“科学机制的理解”。

贡献：

提供了全新的科学发现基准：发布了一个无需静态数据集、按需生成的模拟器及配套评估框架，为衡量 LLM 的长视野实验推理能力提供了工具。
揭示了不同梯队模型的能力代差：评估了 11 款前沿及开源模型，不仅量化了它们在科学发现上的成功率（最强模型也仅能通过约 50% 的世界），还揭示了开源模型在实验设计层面的实质性空白。
深度的认知瓶颈分析：对模型失败案例进行了精细的分类归纳（如感知、推理、执行、自我监控、先验知识层面的失败），为未来提升 AI 科学家的能力指明了具体的改进方向。

提升：

在整体表现上，Claude Opus 4.7 获得了最高的平均解释得分，并在多次尝试（pass@5）中达到了约 50% 的最高通过率。
GPT-5.5 在轨迹预测上取得了极低的 MSE（预测精度最高）。
证明了随着允许的实验轮数增加（最多至 16 轮），前沿模型的通过率和解释得分呈现单调上升，证实了模型具备在多轮实验反馈中不断进化的能力。

不足：

世界构建缺乏自动化：目前的物理世界是人工精心设计的，而非程序化生成。这意味着扩展基准测试需要耗费大量人力去构思新世界并编写相应的评分标准。
评估法官的单一性：概念解释得分仅依赖于单一的 LLM 裁判（claude-opus-4-6），这可能引入特定模型家族的偏见（尽管论文指出该裁判在某些方面给 GPT 的评分高于 Claude 以证明其客观性）。
现实复杂度的缺失：当前的模拟世界规模较小（粒子数少），缺乏仪器系统误差，且只包含了简单的高斯噪声，与现实世界中极其复杂、高维度的科学数据仍有较大差距。

心得：

“预测能力”绝不等于“科学理解”：这篇论文最深刻的启发在于 MSE 与解释得分的脱钩。AI 可能会像托勒密的地心说本轮一样，通过极其复杂的数学拟合（甚至错误的假设）完美预测了轨迹数据，但却在物理机制的概念上完全错误。真正的科学突破不仅在于曲线拟合，更在于提取出能泛化的底层概念机制。
开源模型存在“伪自主性”幻觉：研究发现开源模型在“自己绞尽脑汁设计实验”和“盲目接收随机实验数据”两种情况下的表现毫无二致。这是一个极具信息熵的结论，它无情地揭露了当前开源模型在长程规划和主动探索方面的严重缺陷——它们目前更像是被动的文本分析器，而非具备自主探究能力的“科学家”。
不同 AI 的“性格缺陷”阻碍了科学发现：模型失败模式的分析非常有趣。Claude 像是一个“粗心的理论家”，能在文本中想出正确的物理机制，却在写代码时写错，或者过度思考把真实信号当成噪声；而 GPT-5.5 更像是一个“死板的工程师”，能把曲线拟合得极其完美，但完全受限于地球上的固有先验知识，根本无法想象出“暗物质”或“时间变化力”的存在。这暗示未来的 AI 科学发现可能需要由不同认知特征的模型组成“专家委员会”。

一句话总结: 本文构建了一个强制 LLM 在物理法则被篡改的模拟宇宙中自主做实验的基准测试，深刻揭示了“高精度的曲线拟合并不等于真正的科学理解”这一反直觉现象，同时无情地暴露了当前开源模型在主动实验设计能力上近乎为零的真实现状。

Frontier LLMs now perform strongly across a wide range of physics evaluations, but it is hard to disentangle genuine reasoning from recall of established science. We introduce DISCOVERPHYSICS, an interactive benchmark that asks a LLM agent to discover the laws of motion of a simulated world whose physics deliberately deviates from our own. We construct 22 worlds governed by, among others, screened and fractional-power gravity, multi-species couplings, hidden dark-matterlike particles, non-coordinate-free physics, and time-varying interactions. Each world is generated on demand by an N-body simulator, for which the agent proposes several rounds of experiments, observes raw trajectory data, and ultimately submits both a natural-language explanation of the world’s physics and a Python implementation of the inferred law. Because solving a world requires the agent to design informative experiments and revise its hypotheses, the benchmark probes long-horizon reasoning over an experimental history. We evaluate submissions along two complementary axes: trajectory MSE on held-out particles and an LLMjudged explanation score following an expert-written rubric assessing conceptual understanding of each world. Across eleven frontier models, we find that the strongest agents pass only half of the worlds and consistently fail on those where latent structure must be uncovered. Open-source models lag substantially behind commercial models, both in their ability to design informative experiments and in extracting conclusions from the data. We further find that good predictive accuracy does not guarantee high explanation quality and that conceptual understanding depends on hypothesis refinement through well-chosen experiments.

https://arxiv.org/abs/2605.26087

5、[LG] From Simulation to Enaction: Post-trained language models recognize and react to their own generations

A G., J Lindsey
[Institute for Advanced Study & Anthropic]

从模拟到施为：后训练语言模型对自身生成内容的识别与响应

要点:

挑战了将大语言模型仅视为“模拟器（被动的下一Token预测器）”的观点，提供证据表明，后训练（Post-training）使模型转变为“行动者（Enactor）”，能够识别并对自身生成的在线策略（on-policy）文本做出反应。
关于“熵坍缩”的反直觉发现：业界熟知的对齐后模型生成多样性丧失（熵坍缩）并非全局属性。它高度依赖上下文，主要发生在模型处于“Assistant（助手）”角色且读取自身之前生成的输出时。
展示了强大的“自我识别（Self-recognition）”效应：相比于读取其他前沿模型生成的文本，后训练模型在处理自身生成的文本时，其输出熵要低得多，证实了其输出分布中隐式编码了“自我偏好”。
关于训练动态的高信息熵洞察：令人惊讶的是，像 SFT 和 DPO 这样的“离线策略（off-policy）”训练方法，就足以在模型中植入这种“在线策略（on-policy）”的自我识别能力，并不绝对需要RL。此外，该能力仅在模型参数达到一定规模后才涌现（在 2B 模型中缺失，在 70B 模型中表现强烈）。
发现了“语义熵（Semantic Entropy）”的坍缩：后训练模型在生成第一个 Token 之前，就已经在内部“预承诺（pre-commit）”了一个特定话题。如果人为注入的“预填充（prefill）”文本偏离了这一缓存的意图，模型内部会产生“惊讶（surprise）”，导致 Token 级的输出熵激增。
机制上的割裂（反直觉）：模型同时具备隐式自我识别（由内部的“输入惊讶度”表征介导，因果性地抑制输出熵）和显式预填充检测能力。令人震惊的是，KV缓存修补（KV-cache patching）实验揭示，这两种能力通过完全不同的神经回路运行，显式机制仅仅是在模型即将给出判决结果前才被“按需”调用。

主旨：本文探讨了大语言模型在经过后训练（如SFT、DPO、RLHF）后，是否从单纯预测外部数据的“被动模拟器”转变为了具备自我认知和意图的“行动者”。文章通过量化模型在处理自身生成文本与外部文本时的输出熵差异，以及探究内部注意力机制，旨在证明模型能够隐式地感知其行为所处的上下文（on-policy），并在内部缓存生成意图，甚至能显式地察觉出外部对其输出的强制篡改（预填充）。

创新：

评估视角的创新：摒弃了仅在宏观任务层面评估模型表现的传统方法，创新性地将“输出熵（Output Entropy）”和“输入惊讶度（Input Surprise）”作为衡量模型内部“自我识别”状态的细粒度定量指标。
验证手段的创新：利用精确的 KV Cache Patching（键值缓存修补）技术，分离了用户输入Token处的“内部意图”与助手输出Token处的“实际内容”，从而在微观回路上证实了模型显式判断“预填充”时的对比机制。
双轨机制的发现：首次在机制可解释性层面区分并证实了模型的“隐式生理反应（高熵/低熵）”与“显式语言报告（指出文本被篡改）”是由两套完全解耦的神经计算回路负责的。

贡献：

证实了后训练带来的“多样性丧失（熵坍缩）”并非单纯的概率退化，而是一种与特定角色（Assistant）和特定来源（自我生成）强绑定的自我认知现象。
揭示了自我识别能力随模型规模增大而单调递增，且仅靠 SFT 即可初步激活，DPO 和 RLVR 会进一步泛化该能力。
证明了对齐后的模型在输出前会发生“语义意图预承诺”（极低的语义熵），这一特性使其对违背自身意图的外部注入极其敏感。
发现了隐式自我识别依赖于因果地调节输出熵的“输入惊讶度”特征向量，而显式检测则依赖按需激活的意图比对回路，丰富了关于大模型“情境感知（Situational Awareness）”的理论基础。

提升：

在自身生成的“Assistant”角色上下文中，后训练模型的 Token 级输出熵比处理非自身生成（off-policy）文本时大幅降低了 3-4 倍。
在开放式、模糊提示词下，相比于基础模型（Base Model）呈现出的高频话题分散度，指令微调模型展现出高度的话题锁定能力（几乎 100% 预先锁定单一话题，语义熵极低）。
在显式检测预填充的实验中，通过在特定层替换 User Token 的 KV 缓存，能够几乎完美地（控制率从近乎 100% 反转至 <1%）操控模型对预填充内容的判断。

不足：

理论解释仍有空白：虽然观察到 SFT 和 DPO 这些离线训练方法足以催生自我识别，但未能从机制上完全解释为什么“训练模型模仿特定分布”会自动导致它对“自身采样轨迹”产生如此强烈的低熵生理反应。
因果链条不完整：虽然找到了代表“输入惊讶度”的方向向量，且证明其能调节输出熵，但对于该表征究竟是如何计算出来的，以及还有哪些其他因果因素在起作用，尚缺乏端到端的回路解释。
实验场景局限性：当前的测试大多基于相对简单的一问一答或较短的上下文，尚未评估在现代 AI Agent 典型场景（如反复调用工具、RAG 检索增强等导致自身文本与外部文本高度交织的场景）中，这种“自我识别”机制是否依然稳健。

心得：

真正的“智能体化（Agency）”始于自我认同：基础模型像一个没有自我意识的演员，什么都能演但什么都不是；而后训练给模型穿上了一件名为“AI助手”的戏服。论文中最震撼的一点是，当模型确认自己在穿这件戏服、说自己的台词时，它的内部状态变得前所未有的“确信和稳定”（熵极低）。这暗示了，大模型的对齐不仅仅是行为规范，更是在塑造一种雏形状态的“自我认知”。
“预填充（Prefilling）”对齐方法的潜在风险：业界广泛使用强制“预填充”特定的思维链或回答开头来训练模型、诱导输出或进行越狱（Jailbreak）。然而论文指出，如果预填充的内容违背了模型在读取 Prompt 后瞬间“缓存的初始意图”，模型的内部状态会陷入高熵的“惊讶与混乱”。这意味着，用强行塞入的违和上下文去微调模型，可能会让模型处于一种非自然、甚至病态的神经状态，反而不利于高质量的对齐。
AI 内部的“心口不一”为安全防御提供了新思路：研究发现，模型“身体上”的反应（检测到违和上下文导致的隐式高熵）和“嘴上”的报告（显式声明文本被篡改）竟然走的是两条完全不同的神经回路。这在给可解释性研究带来挑战的同时，也提供了一种强大的安全防御机制——防御者可以直接探测模型内部意图与外在输出之间的“冲突信号”（比如语义熵的异常突增），从而在源头上拦截诸如“预填充越狱”之类的攻击，而无需依赖模型自身显式的安全回答。

一句话总结: 本文通过探究输出熵的变化与内部机制，证实了经过后训练的大语言模型已从被动的“文本模拟器”演化为具备初步自我认知的“行动者”，它们不仅能在输出前提前锁定意图，更能通过两条截然不同的内部神经回路（隐式的熵调节与显式的意图比对）精准感知并响应自身的真实生成与外部的预填充篡改。

Language models are pretrained as passive predictors with no incentive to model the consequences of their own outputs. Post-training changes this: a model producing its own responses can benefit from recognizing that it is on-policy. We present evidence that post-trained models recognize their on-policy generations, and this recognition is implicitly encoded in their output distributions. In particular, on-policy output distribution entropy is 3–4× lower than off-policy entropy, across model families and size classes. We trace part of this effect to an internal representation of input surprise, tracking the unlikeliness of the most recent input token according to the model’s prior predictions, that causally modulates output entropy. One example of these phenomena can be observed in response to open-ended prompts; post-trained models (unlike pretrained models) collapse their uncertainty over the topic of their upcoming response before the first output token; violating this cached intention with a different-topic prefill results in higher output entropy. We also tested whether models can distinguish on-policy contexts from prefills via explicit verbal report. We find that they can, but that interestingly, this explicit recognition routes through a different mechanism than implicit recognition.

https://arxiv.org/abs/2605.25459