
AI的注意力为什么不能「看所有地方」
人类读一篇文章,不会逐字盯着每个字看。大脑会自动跳过、筛选、聚焦。但早期的AI语言模型偏偏反其道而行——它要看所有位置,跟所有位置「打招呼」。这个设计,藏着一个正在把整个行业逼到墙角的代价。
先说一个让人不舒服的数字:标准Transformer模型的计算量,随着输入长度的增加,是平方级增长的。你给它看1000个词,计算量是100万。你给它看10000个词,计算量是1亿。不是乘以10,是乘以100。这意味着什么?意味着你想让模型处理一本书,代价可能是处理一段话的几千倍。
注意力机制的原始设计:全连接的代价
要理解为什么会这样,得先理解「注意力机制」在做什么。简单说:模型在处理每一个词的时候,会去问所有其他词——「你和我有关系吗?关系有多深?」这个问答过程,在技术上叫做计算Query和Key的相似度,然后根据相似度加权聚合Value。听起来很合理,对吧?每个词都跟所有其他词充分交流,信息应该最完整。
问题就出在「所有」这两个字上。100个词,每个词要跟另外99个词各打一次招呼,总共大约5000次交互。1000个词,就是将近50万次。这就是平方复杂度的直觉来源。在短文本时代,这不是问题。但现在的AI应用场景——分析合同、处理长对话、理解代码库——动辄就是几万甚至几十万个词。全连接注意力在这里,变成了一道真实的工程墙。
O(n²)
全连接注意力的计算复杂度,n是序列长度
稀疏化:不是偷懒,是一种判断
注意力稀疏化的核心思路,说起来几乎显而易见:不是所有词之间都需要交流。一篇文章里,「苹果」这个词大概率跟三段之前的「天气」没什么关系。强迫它们互相计算,是在浪费资源处理噪音。稀疏化的意思,就是只保留「有价值的连接」,把其余的砍掉。
但问题来了:怎么知道哪些连接有价值?这里分出了几条不同的技术路径,思路各有意思。
1局部窗口注意力:每个词只看自己附近的邻居,比如前后各256个词。逻辑是「距离近的词,关系往往更密切」。代价是丢失了跨越长距离的关联。
2全局+局部混合:选几个「超级节点」——比如每段的第一个词——让它们跟所有词都交流,普通词只跟邻居交流。信息通过超级节点中转,既省计算,又不完全断开长程连接。
3随机稀疏注意力:除了局部连接,再随机抽取一些远距离连接。听起来像拍脑袋,但数学上有理论支撑——随机游走可以覆盖整个图。
4基于内容的动态稀疏:模型自己学习「哪些词对应该交流」,根据内容动态决定连接模式。这是最灵活的,也是最难训练的。
一个被忽视的洞察:稀疏化其实在模仿人类的阅读策略
这里有个角度,大多数技术文章不会提:注意力稀疏化,本质上是在给模型装上「略读能力」。认知科学研究表明,熟练读者在阅读时会主动跳跃——先扫标题和关键词,形成整体结构,再对感兴趣的部分深入。他们不会用同等力度处理每个字。这种「差异化投入」,正是稀疏注意力想要复现的东西。
「
计算效率的背后,藏着一个关于「什么信息真正重要」的哲学判断。
」
从这个角度看,不同的稀疏化策略,其实对应着不同的阅读假设。局部窗口注意力假设「近邻最相关」,类似于你读一句话时主要依赖上下文。全局节点策略假设「存在少数关键锚点」,类似于你读文章时会反复回扣标题和核心论点。动态稀疏则假设「相关性由内容决定,不由位置决定」,最接近人类真实的阅读行为,但实现难度也最高。
代价与取舍:没有免费的午餐
稀疏化不是没有代价的。最直接的代价是信息损失的风险。你砍掉的那些连接,有时候真的藏着重要信息。一个法律合同里,第一页的某个定义条款,可能对第二十页的某个条款有决定性影响——而这两个地方,在局部窗口策略里永远不会直接交流。
这就是为什么工业界的实际方案,往往是「混合架构」:底层用稀疏注意力处理大量局部信息,顶层保留少量全连接层做全局整合。有点像公司组织结构——基层员工只跟同部门沟通,但高管要跨部门协调。效率和覆盖面,在这个结构里找到了某种平衡。
~4倍
典型稀疏注意力相比全连接在长序列上的速度提升(序列长度8k时)
为什么现在这个问题越来越重要
五年前,这个问题主要是学术圈的事。现在不一样了。大模型的「上下文窗口」军备竞赛,已经把战场推到了百万token的量级。GPT-4最初只支持8k上下文,而现在一些模型宣称支持100万甚至更长。这个数字背后,没有稀疏化或类似的技术优化,根本撑不住。
更深层的驱动力是应用场景的变化。当AI开始被用来「理解整个代码库」「分析完整的财报文件」「处理一个月的对话历史」,短序列时代设计的全连接注意力,就像用一辆家用轿车去拉集装箱——不是不能跑,是根本不是为这个设计的。
✦ 小结
注意力稀疏化解决的不只是计算效率问题,它在回答一个更根本的问题:信息之间的关联,是均匀分布的,还是高度集中的?答案显然是后者。从这个角度看,稀疏化不是对原始设计的妥协,而是对现实世界信息结构的一次校正。理解了这一点,你就理解了为什么这个方向,会成为大模型架构演进的核心命题之一。
夜雨聆风