AI科研圈的精神狂热|颠覆性预测|Transformer之父:AI并非像人类一样思考,Agent正在重写技术人的工作方式

最近，Transformer 论文《Attention Is All You Need》的作者之一 Lukasz Kaiser，谈到 AI 科研圈正在出现一种轻度的“精神狂热”。

这句话容易被理解成行业太兴奋。但我更愿意把它理解成另一件事：技术人的工作方式正在被 Agent、算力和大模型能力边界一起重写。

真正值得关注的，不是某个模型又刷新了榜单，而是研究者从“亲手写完每一行代码”，开始转向“定义问题、组织实验、验证结果、管理多个 AI 执行者”。

Transformer 仍是底座，但不是终点

2017 年的《Attention Is All You Need》提出 Transformer 架构，用注意力机制替代传统循环和卷积结构，让模型训练更容易并行，也让后来大模型的扩展成为可能。

到今天，很多语言模型、多模态模型、代码模型，仍然是在 Transformer 路线上继续放大。它还没有过时，甚至仍是 AI 产业的基本盘。

但 Lukasz 的判断很克制：Transformer 并不是终极答案。它在学习效率、长上下文、多模态理解和物理世界泛化上，仍然有明显短板。

所以行业更像是在两条线上并行：一边继续深挖现有 Transformer 的商业潜力，一边等待下一代底层架构真正跑出来。消费级 GPU 的进步也降低了早期实验和小规模架构探索的门槛，但这不等于个人电脑可以复制大厂前沿模型。

大模型的泛化，不按人类直觉展开

这次访谈里最值得技术人警惕的观点，是“大模型像外星人一样泛化”。

人类理解世界，往往依赖少量样本和概念迁移。小孩见过几只猫，就能大致理解“猫”；学过代数后，也能把一些逻辑感迁移到几何。

但大模型并不一定这样工作。它可能在某些高难任务上表现惊人，却在一个人类觉得相近的细分场景突然失效。Lukasz 用几何题举例：模型可以攻克很多复杂数学题，却可能长期卡在某类欧式几何问题上，直到补充大量同领域数据后才改善。

这说明大模型不是没有泛化能力，而是它的泛化路径并不平滑。它的能力边界像锯齿，不像人类想象中的圆形扩张。

这对产品和工程落地非常关键。不要因为模型在演示里连续答对十个问题，就推断它在真实业务里能稳定处理第一千个问题。越是自动驾驶、医疗、金融、法律这类场景，越要警惕长尾、异常和责任边界。

Agent 让研究从“写代码”变成“管实验”

OpenAI 对 Codex 的官方描述，是一个云端软件工程 Agent，可以在隔离环境里处理重构、写测试、修 Bug、草拟文档等边界清晰的工程任务，并支持把多个任务并行交给多个 Agent。

这和 Lukasz 在访谈里的体验是同一件事：过去复现一篇旧论文，可能要花几周时间整理代码、修环境、调 bug；现在借助 Agent，同样的工作可以被大幅压缩。

但重点不是“AI 帮人少写代码”。真正的变化是，研究链路里的执行成本下降了。

当样板代码、接口查询、报错修复和实验脚手架变便宜，研究者的大脑就会从细节泥潭里抬起来，去判断：这个 loss 是否合理？这个指标是否可信？这次提升是不是数据泄漏？模型到底是在学规律，还是在钻验证集的空子？

所以 Agent 并没有让技术人变轻松。它让技术人的责任上移了。以前你对代码负责；现在你要对问题定义、实验设计、验证标准和最终判断负责。

所谓“精神狂热”，其实是反馈回路变短

AI 科研圈为什么会显得停不下来？

因为想法到实验的距离变短了。过去一个灵感要变成可运行实验，中间隔着环境、代码、调试和硬件适配。现在 Agent 能处理大量执行层任务，消费级硬件又降低了小规模验证成本，研究者很容易进入连续试探的状态。

这就是“精神狂热”的真实含义：不是相信 AI 已经无所不能，而是反馈回路短到让人不断产生新问题、新实验和新判断。

但越是在这种时候，越不能把判断权交出去。模型会自信地犯错，Agent 会主动补一些看似合理、实际危险的逻辑，漂亮的实验曲线也可能来自错误设置。

给技术人的建议很简单：把 Agent 当成执行者，而不是老师傅；先建验证框架，再谈自动化；接受大模型的非人类性，把它放进一个可验证、可纠错、可迭代的系统里。

AI 科研圈的“精神狂热”，最终给技术人的提醒不是快去追下一个工具，而是当执行变得越来越便宜，真正稀缺的会变成判断力。