乐于分享
好东西不私藏

AI为什么这么费电?剑桥造了一块仿大脑的芯片,能耗直接砍掉70%

AI为什么这么费电?剑桥造了一块仿大脑的芯片,能耗直接砍掉70%

训练一次GPT-4,耗电量相当于一个普通美国家庭用120年的电。

这个数字让很多人第一次意识到,AI不只是一个软件问题,它是一个能源问题。

随着AI渗透进越来越多的行业,这个问题正在快速变大。全球的AI数据中心,正在把电网逼到极限。有研究预测,到2030年,AI的用电量可能占全球总用电量的10%以上。

问题出在哪里?

出在芯片的工作方式上。

现代计算机的基本架构,来自1940年代的冯·诺依曼体系。

核心逻辑非常简单:内存负责存数据,处理器负责算数据,两者分开,通过总线来回传数据。

这个设计在几十年里运转良好。但随着AI计算规模的爆炸性增长,它的致命缺陷暴露出来了:现代AI依赖传统计算机芯片,不断地在内存和处理单元之间来回搬运数据,这个持续的数据搬运消耗了大量电力,而随着AI应用在各行各业的扩展,全球对算力的需求正在爆炸式增长。

用一个直白的比喻:想象一个工人,他的工具放在另一个房间,每做一件事都要跑到另一个房间去拿工具,用完再跑回来放好,然后再跑过去拿下一个。他大部分时间和体力,都消耗在跑路上,而不是真正的工作上。

这就是今天的AI芯片在做的事。

人类的大脑也在处理信息,而且处理的复杂程度远超任何现有的AI系统。

但大脑的耗电量是多少?

大约20瓦。比一个节能灯泡还低。

大脑效率这么高,原因在于它的设计和冯·诺依曼体系截然不同。

大脑里没有”内存区”和”处理区”的分离。神经元之间通过突触连接,每一个突触同时承担着”存储”和”处理”两个功能——信息就在连接的地方被处理,不需要搬运到另一个地方去计算。

这就是”神经形态计算”(neuromorphic computing)的核心思想:把大脑这套”存储和处理在同一个地方”的架构,搬到芯片上。

理论上,这能彻底解决冯·诺依曼瓶颈,能耗可以大幅下降。

问题是,怎么在硅片上造出模仿突触的器件?

突触最重要的特征,是它会根据使用频率改变连接强度——用得越多,连接越强,这就是学习和记忆的物理基础。

在芯片里模仿这个行为的器件,叫做记忆电阻器(memristor)——一种阻值可以根据通过的电流历史来改变的电阻,有点像有记忆的电子元件。

记忆电阻器的概念提出了几十年,但工程上有一个长期解决不了的问题:传统的记忆电阻器依靠在材料内部形成和断裂导电细丝来切换状态,但这些细丝的行为不可预测,随机性很强,稳定性很差。

换句话说:它的状态切换是随机的,你不知道下一次它会是什么阻值,这让它在实际应用中几乎无法使用。

剑桥大学的研究团队,由材料科学与冶金系的巴巴克·巴赫特博士领导,用一种改良的氧化铪薄膜解决了这个问题。他们在氧化铪里加入了锶和钛,用两步生长工艺在材料界面处制造出稳定的p-n结。

p-n结是半导体里最基础的结构,就是普通二极管里的那个。用它来控制记忆电阻器的状态切换,好处是:切换行为不再依赖随机生长的导电细丝,而是通过调节界面处的能量势垒来实现,可以精确控制,重复性极好。

测试结果:这款新器件的工作电流,比某些传统氧化物基记忆电阻器低大约一百万倍,在数万次切换循环中表现出极好的稳定性和一致性。

一百万倍。

神经形态计算通过把信息的存储和处理放在同一个地方、并以极低的功率运行,可以将能耗降低高达70%。

这70%不是凭空来的,它直接对应着被消除的那部分:数据在内存和处理器之间来回搬运所消耗的能量。

当存储和计算合并在同一个器件里,搬运就消失了。能量只需要用在真正的计算上。

这样的系统也会更具适应性,就像我们自己的大脑能够学习和适应一样。

剑桥大学的创新部门已经为这项技术提交了专利申请。论文发表在《科学进展》期刊上。

说清楚一件事:这项研究目前还在器件层面,距离量产还有工程上的很长一段路要走。

但它的意义在于,它解决了记忆电阻器领域最核心的一个工程障碍——稳定性问题。

过去,研究者们能造出”原理上可行”的神经形态器件,但可靠性不够,没法放进真实的产品里。剑桥这个方案把稳定性提升到了实用水平,打开了一扇之前一直虚掩着的门。

AI的能耗问题,不会被一篇论文解决,但每一次这样的突破,都在让那个解决方案离现实更近一点。

最后

大脑处理人类所有的思维、情感、记忆和行为,耗电量是20瓦。

今天最先进的AI训练一次,耗电相当于120个家庭用一年。

这个差距,不是因为AI不够聪明,而是因为它在用一套根本上低效的架构在工作。

剑桥这块仿大脑的芯片,思路上最有意思的地方不是那70%的数字,而是它的出发点:与其让硅片越来越快,不如让它更像大脑。