五位Transformer发明人同台对决,O(n²)复杂度成"头号死穴",ChatGPT底层架构面临终极审判
一场足以撼动整个AI产业根基的"思想拳击赛"正在硅谷上演。对阵双方不是别人,正是Transformer架构的缔造者们自己。
5月初,旧金山,AI基础设施公司Pathway组织了一场辩论赛。舞台中央是Łukasz Kaiser——Transformer联合发明人、ChatGPT和GPT系列核心工程参与者。对面站着三位挑战者:Llion Jones,另一位Transformer联合发明人、Sakana AI联合创始人;Adrian Kosowski,Pathway首席科学官;Matthias Lechner,MIT液态神经网络共同发明人。
这不是学术讨论,而是一次"架构审判"。 挑战者列出Transformer五大"死穴":O(n²)计算复杂度随序列长度平方级爆炸、灾难性遗忘导致每次对话从零开始、推理能力存在天花板、长上下文依赖昂贵的KV Cache、Scaling边际收益递减。这场辩论的胜负直接关乎ChatGPT、Claude、Gemini等百亿美元级AI产品的底层地基是否需要被全部推倒重建。
五大"死穴"与"最不坏"的辩护
挑战者精准拆解了Transformer架构层无法回避的问题。O(n²)复杂度是头号命门——当上下文从几千Token扩展到百万级,计算开销从百万级膨胀到万亿级。灾难性遗忘则更为致命:哪怕聊了十小时,下一次会话启动时,模型依然是"失忆的白痴",工业界用RAG和KV Cache"贴创可贴",但这不是架构级解法。
面对攻击,Kaiser没有逐一辩驳,而是抛出了核心论点:"除非Post-Transformer证明更好的Scaling曲线,否则Transformer仍然是主流。" 这一逻辑极其锋利——Transformer统治近十年,核心原因不是没缺陷,而是其Scaling曲线至今未被超越。这是OpenAI敢砸几十亿美元训练GPT的底气。
Kaiser展示了工程验证:在最新Nvidia硬件上,一个小型GRU比大得多的Transformer慢50倍。但他也承认,AI Agent已经学会了写CUDA和Triton核函数,硬件优化壁垒正在被AI自己砸碎。一旦新架构在百万Token级任务上跑出更优曲线,哪怕只有一点优势,也会在Scaling放大镜下形成致命一击。他的结语意味深长:"目前,Transformer仍然赢。" "目前"二字,是留给挑战者的唯一缝隙。
中国AI大厂的"架构选择题"
百度是Transformer在中国的"头号信徒"。文心一言基于飞桨框架深度优化,若Transformer被颠覆,技术栈将面临大规模重构。李彦宏曾指出"大模型核心竞争力在工程化能力"——百度更看重实际Scaling曲线而非理论完美。
字节跳动采取"多架构并行"策略,同时在探索Transformer、Mamba和混合架构三条路线。字节2026年Q1 AI投入超150亿元,多线并进本质是为"后Transformer时代"做准备。 豆包在长上下文任务上的突破,部分得益于对新架构的早期布局。
阿里通义千问团队2026年初发表了"线性注意力机制"论文,尝试将O(n²)降至O(n)。阿里云CTO周靖人曾表示:"谁先找到替代品,谁就掌握下一个十年的入场券。"
华为盘古大模型走行业路线,但昇腾芯片生态围绕Transformer矩阵运算优化——架构变化将冲击其"芯片+框架+模型"全栈战略。
对普通中国用户意味着什么?
短期无感,长期影响深远:如果更高效架构出现,AI推理成本可能下降一到两个数量级,免费AI服务将更普及;突破上下文长度限制后,"陪伴你一年的AI助手"不再是科幻;更重要的是,如果"后Transformer"时代到来,中国AI企业与硅谷将站在同一起跑线上——中国在工程化落地上的优势可能超越美国在基础研究上的领先。
硅谷震荡与资本重新定价
这场辩论引发的连锁反应远超学术圈。多位风投人士已开始在评估AI项目时,要求创始人说明"若Transformer被取代,技术栈如何应对"——这在一年前不可想象。一位硅谷投资人透露:"我们正在重新评估所有Transformer-based AI公司的估值。"
资本市场上,Nvidia股价在辩论报道扩散期间出现短期波动;Pathway、Sakana AI等新架构公司融资咨询量明显上升。
学术界也激烈分化。 MIT教授Yann LeCun认为Transformer至少还能统治5-8年——"批评Transformer很容易,但造一个更好的很难。"反对方则指出:2017年Transformer取代RNN时,RNN的支持者也是这么说的。
巨头反应:Google DeepMind已在评估将Gemini部分模块迁移至非Transformer架构;OpenAI内部在推进"下一代架构"预研;Anthropic CEO承认"架构创新是AI发展的核心瓶颈之一"。
今日观察
① AI架构的"十年魔咒"正在应验。 从CNN(2012-2017)到Transformer(2017-2026),每个统治性架构的生命周期约十年。五位发明人同台"互撕"意味着下一代架构的种子已经埋下。2027-2028年很可能成为"后Transformer"架构的爆发窗口。
② 中国AI产业面临"换赛道"的历史机遇。 架构变革将重新洗牌全球AI竞争格局——在旧赛道上落后几个身位的中国AI企业,在新赛道上可能获得弯道超车的机会。关键在于能否提前布局、精准卡位。
③ "谁的Scaling曲线更优"将成为AI竞争的终极裁决标准。 Kaiser的辩护揭示了残酷真相:架构优越性不取决于它能解决多少理论问题,而取决于每单位算力投入能产出多少智能能力。未来AI竞争的胜负手不在实验室论文里,而在训练集群的效率和推理芯片的适配优化上——这恰好是中国科技企业最擅长的领域。
参考资料:Sina Finance深度报道、Pathway辩论录像、各公司公开技术博客
夜雨聆风