炸翻AI圈!杨植麟带队改写大模型底层规则,我们的AI助手要彻底变聪明了-夜雨聆风

炸翻AI圈!杨植麟带队改写大模型底层规则,我们的AI助手要彻底变聪明了

“一切都需要被重新思考，深度学习2.0时代即将来临。”

这句话，出自前OpenAI大牛、被称为“推理模型之父”的Jerry Tworek。

让这位全球顶级AI专家发出如此感叹的，不是OpenAI的秘密新模型，而是中国公司月之暗面，刚刚发布的一篇重磅论文。

这篇论文，直接重构了大模型沿用了近十年的底层核心结构。

连OpenAI联合创始人Andrej Karpathy都直言：我们终究还是没把“Attention is All You Need”这句话，真正按字面意思理解透。

论文发布仅半天，X平台相关帖子阅读量逼近60万，整个AI圈彻底炸锅。

很多人问：不就是一个AI技术论文吗？至于让全球大佬集体破防？和我平时用的AI助手、ChatGPT、Kimi又有什么关系？

我可以明确说：关系太大了。

这次技术革命，不仅可能改写全球大模型的发展格局，更会直接让我们平时用的AI助手，在逻辑推理、数学计算、代码编写、复杂问题解决上，迎来一次质的飞跃。

月之暗面这次捅破的，是困住大模型发展十年的底层天花板。

这不是一次小修小补的优化，而是很可能开启下一代AI时代的，范式级革命。

一、你用的AI不够聪明，竟是因为这个十年没变的“地基”

要懂这次创新有多颠覆，先要搞懂一个核心问题：我们平时用的大模型，到底是怎么“思考”的？

不管是ChatGPT，还是Kimi，或是其他AI助手，它们的核心，都是Transformer架构搭建的深层神经网络。而这个网络能跑起来，全靠一个叫“残差连接”的底层设计。

2015年，华人AI学者何恺明等人提出了残差连接，直接改写了深度学习的历史。

简单说，深层神经网络训练时，有个致命难题：梯度消失。网络层数越深，模型越学不动，甚至根本无法收敛。

而残差连接，给梯度开了一条“高速通道”。

它的逻辑很简单：每一层的输出，都把前一层的输入原封不动加进来。这样一来，不管网络多深，梯度都能顺畅回传，深层模型终于能训起来了。

这个设计，直接成了深度学习的“地基”。

不管是你拍照用的AI修图，还是刷视频用的AI推荐，亦或是天天用的AI对话助手，它们的背后，都离不开残差连接这个最核心的基础模块，没有之一。

但成也残差，败也残差。

这套用了十几年的“等权累加”机制，早就成了AI变聪明的致命瓶颈。

传统残差连接的规则，简单粗暴：不管前一层的信息有用没用，都必须原封不动全加进来。

每一层，只能拿到上一层混合后的结果。而这个结果，是前面所有层的信息，一锅乱炖出来的。

这就带来了两个无解的问题，也是你平时用AI时，最常遇到的痛点根源。

第一个问题，信息被不可逆地稀释了，AI很容易“健忘”。

就像你往一杯水里加一勺糖，第一口很甜。但你不断往里加水，到最后，根本尝不到一点甜味。

AI也是一样。你给它的需求里，底层的规则、开头的关键信息，经过几十上百层的累加混合，到了最后输出阶段，早就被稀释得无影无踪。

这就是为什么，AI经常会忽略你开头提的要求，长文本里频频出错，复杂需求越跑越偏。

第二个问题，AI的“思考能力”被彻底锁死，复杂问题很容易“翻车”。

模型层数越多，信息越混乱。每一层只能被动接受累加的结果，根本没法选择自己真正需要的信息。

这就像你做一道数学题，需要翻课本的公式、课堂的笔记、之前的错题，但有人把这些资料全部打碎混在了一起，你根本找不到自己需要的内容。

AI做复杂推理时，也是一样的困境。

做一道复杂的数学题，它需要同时用到底层的规则、中层的逻辑、高层的推理。但传统残差连接，根本没法让它精准调取这些分散在不同层级的关键信息。

这就是为什么，AI做简单题还行，一遇到多步推理的数学题、复杂的代码需求、严谨的逻辑分析，就很容易出错、一本正经地胡说八道。

这就是整个行业的困局：

所有人都在堆参数、堆数据、堆上下文长度，却没人发现，困住AI变聪明的，竟然是这个从诞生起，就没被彻底重构过的底层地基。

二、彻底颠覆！让AI学会“精准翻书”，思考逻辑彻底变了

月之暗面这次做的事，用一句话就能说清：

用可学习的注意力机制，彻底替代掉固定的残差相加。

这套全新的机制，叫做注意力残差，也就是Attention Residuals，简称AttnRes。

如果说传统残差连接，是AI只能拿着上一页人画好的乱炖笔记，硬着头皮往下写。

那AttnRes，就是给AI的每一层思考环节，都开了一个全局搜索引擎，让它能随时翻完所有的“课本和笔记”，精准找到自己需要的内容。

在AttnRes的机制里，模型的每一层，都相当于一个查询指令。

它不再只看上一层的输出，而是可以直接检索之前所有历史层的完整信息，给每一层的内容动态分配权重。

有用的关键信息，就重点提取；没用的冗余信息，直接忽略。最终把最适配当前任务的信息组合起来，完成这一步的思考。

这是什么概念？

Transformer之所以能开启AI时代，核心就是注意力机制。它让AI处理文本时，能给不同的内容分配不同的权重，精准抓住你说的关键需求。

但过去近十年，注意力机制，只用在了“词与词之间”的交互，也就是让AI能读懂你说的话里，哪些是重点。

而AI的“思考深度维度”，也就是层与层之间的逻辑交互，一直被固定残差，死死锁住。

AttnRes的出现，第一次把注意力机制，从“读懂内容”的序列维度，拓展到了“深度思考”的深度维度。

真正把“Attention is All You Need”这句话，贯彻到了AI思考的每一个环节里。

传统残差的所有致命问题，迎刃而解。

✅ 再也不会“健忘”：你提的关键要求、早期的核心信息，不会被混合稀释，而是完整保留，AI在推理的任何环节，都能随时精准调取，长文本、复杂需求再也不会跑题。

✅ 思考能力彻底跃升：AI的每一步思考，都能主动选择最有用的信息，而不是被动接受乱炖的内容，复杂推理、多步计算的能力，会迎来质的飞跃。

✅ 每一层算力都不浪费：模型的每一层都能发挥最大价值，堆层再也不是无效内卷，同样的算力，能训练出更聪明的模型。

肯定有人会问：每一步思考都要检索所有历史信息，计算量会不会爆炸？AI会不会变得特别卡？

这点，月之暗面早就想到了，还给出了完美的落地方案：Block AttnRes，也就是块级注意力残差。

原理很简单：把AI的思考层，分成若干个“知识块”。块内保持常规的思考计算，块与块之间，用压缩后的核心知识点做注意力交互。

这样一来，既保留了全局信息检索的思考能力，又把计算和通信开销，压到了最低。

三、数据说话：推理能力暴涨20%，效率更高，还能直接落地

实验室里的技术再炫酷，不能落地到我们平时用的AI产品里，都是空中楼阁。

而月之暗面这次的研究，最可怕的地方就在于：它不仅有颠覆性的理论，还有已经跑通的工程实现，和实打实的性能数据。

研究团队直接把AttnRes，集成到了Kimi Linear架构里，在1.4T token上完成了完整预训练。

实验结果，直接惊艳了整个行业。

第一，全维度能力暴涨，复杂推理能力提升超20%

在相同参数规模、相同计算预算下，加入AttnRes的模型，在各类权威基准测试中，实现了全维度提升。

尤其是在最考验AI“真聪明”的复杂推理任务上，提升堪称飞跃：

– 科学问答基准GPQA-Diamond，得分从36.9直接涨到44.4，提升幅度超过20%，这是最考验AI多步推理、专业知识运用能力的硬核测试

– 数学基准Math，得分从53.5提升到57.1，数学计算、逻辑推导能力大幅提升

– 代码基准HumanEval，得分从59.1提升到62.2，写代码、改bug的能力更强

– 中文能力基准C-Eval，得分从79.6提升到82.5，对中文的理解、知识运用更精准

数学推理、科学问答、代码生成、中文理解，这些我们平时用AI时最核心的需求，能力全部实现了稳定跃升。

第二，计算效率提升1.25倍，效果更好，速度还不慢

性能提升的同时，AttnRes还实现了更高的计算效率。

实验数据显示，Block AttnRes的验证损失为1.692，而传统架构的基线模型为1.714。

这意味着，达到同样的AI效果，Block AttnRes只需要更少的计算量；同样的计算预算，能训练出效果更好的模型。

换算下来，它带来了约1.25倍的计算效率优势，未来AI的训练和使用成本，都可能因此降低。

第三，工程完全跑通，落地几乎无成本，我们很快就能用上

更难得的是，这套机制，已经在工程层面实现了极致优化，落地成本极低，完全不会影响我们平时的使用体验。

– 训练阶段：通过跨阶段缓存机制，端到端训练时间增加不到4%，几乎不增加额外成本

– 推理阶段：通过两阶段计算策略，推理延迟开销不到2%，我们用的时候，几乎感知不到任何卡顿，却能享受到能力的质的飞跃

这意味着，这套架构完全可以直接用到商用大模型里，我们很快就能在Kimi的产品里，体验到这次底层革命带来的能力提升。

这不是实验室里的概念PPT，而是马上就能落地到产品里的，成熟可用的技术。

四、为什么说，这是深度学习2.0的开端？

一句“深度学习2.0要来了”，不是大佬的夸张吹捧，而是对这次架构革命的精准判断。

因为AttnRes带来的，不是某一个点的性能优化，而是整个深度学习架构设计思路的，范式转移。

过去十年，深度学习的架构演进，一直都在“残差连接+Transformer”的框架里修修补补。

我们做了更大的参数、更长的上下文、更多的训练数据，但从来没有动摇过一个最底层的逻辑：

层与层之间，必须用固定残差累加。

而AttnRes的出现，彻底打碎了这个框架。

它告诉整个行业：深度神经网络的层与层之间，不一定非要固定累加，完全可以用注意力机制，实现动态的、自适应的信息聚合。

这就像当年从全连接网络到CNN，从RNN到Transformer的跃迁。

一旦底层的信息交互逻辑变了，整个AI行业的想象空间，就被彻底打开了。

未来，我们很可能会看到，完全不同于传统Transformer的模型架构：

– AI的思考模式，不再是线性的层层递进，而是基于注意力的网状交互，能像人脑一样，灵活调取不同层级的知识

– 模型的深度设计，不再被梯度消失、信息稀释束缚，深层网络的潜力被彻底释放，AI的能力上限会被不断拉高

– 大模型的推理、代码、复杂任务能力，会迎来一次全行业的质的飞跃，我们能用AI做的事，会比现在多得多

更值得我们骄傲的是，这次底层架构的颠覆性创新，来自中国的创业公司，而不是OpenAI、Google这些海外巨头。

从Kimi Linear开创的“大参数低激活”架构路线，到如今AttnRes对残差连接的彻底重构，杨植麟带队的月之暗面，正在用一次又一次的底层创新，证明一件事：

中国大模型公司，完全有能力在最根源的架构领域，引领全球AI行业的演进。

五、写在最后：AI的竞争，终于回到了最核心的创新

过去两年，大模型行业陷入了严重的内卷怪圈。

所有人都在比谁的参数量更大，谁的上下文更长，谁的营销声量更响，却很少有人，愿意沉下心去做最底层的架构创新。

但我们都知道，AI能不能真正变聪明，从来不是靠参数和数据的堆砌，而是底层的架构设计，能不能让模型真正学会“思考”。

当架构的底层逻辑被锁死，再多的参数、再多的数据，也只是边际效益递减的无效投入。

月之暗面这次的创新，最珍贵的地方，从来不是那几个百分点的性能提升，而是它敢于挑战行业的底层共识，敢于去重构深度学习用了十几年的地基。

而这，恰恰是AI行业最核心的生命力。

毕竟，当年Transformer的诞生，也只是源于一句“Attention is All You Need”。

如今，我们终于把这句话，真正贯彻到了AI深度学习的最深处。

深度学习2.0的大幕，或许真的从这一刻，正式拉开了。

互动话题

你平时用AI助手，最头疼的就是它“健忘”“逻辑翻车”吗？你期待这次架构革新，给AI带来的能力提升吗？欢迎在评论区留下你的看法。

喜欢这篇文章，记得点赞、在看、转发，让更多人看到中国AI公司的底层创新。

炸翻AI圈!杨植麟带队改写大模型底层规则,我们的AI助手要彻底变聪明了

wang

猜你喜欢