华为“韬(τ)定律”论文原文及下载
📜 声明
🤖 原文来自网络,本文内容由 AI 翻译生成,未经过校对。
📑 版权归论文原作者所有,仅供学习。
原文下载方式: 微信公众号“ChipWeaver” 后台回复 “260525”


多层电子系统的时间缩放理论
何廷波
华为
摘要
六十年来,摩尔的几何缩放推动了半导体产业的进步。然而,这一行业共识已不再成立:纯维度缩小的收益趋于平缓,先进制程的单芯片设计预算超过十亿美元,最先进节点的单晶体管成本已不再下降。本文提出一种继任的缩放原则——τ缩放(tau scaling),即以时间本身而非晶体管面积作为进步的主要度量标准,将单一特征时间常数τ作为跨越十二个数量级的统一优化目标,范围涵盖从皮秒级开关的晶体管到秒级响应的数据中心工作负载。本文展示了两项量产级验证案例:在移动SoC方面,LogicFolding(逻辑折叠)——一种将数字、模拟和存储电路分区部署于垂直堆叠有源层的方法论——在固定器件节点下实现了晶体管密度55%的阶梯式提升和41%的能效增益;在AI系统方面,由内存语义统一总线(Unified Bus) fabric、近封装Hi-ONE光互连I/O以及边缘到表面的3D Folding协同设计的系统栈,预计到2035年将实现硬件集成度超过100倍的增长。
更深层次的主张是方法论层面的:τ缩放是自登纳德(Dennard)缩放以来,首个为整个计算栈建立共享优化目标的缩放原则。
引言
自20世纪60年代中期以来,半导体行业一直以纳米为单位衡量进步。每十八个月,晶体管缩小、频率提升、单逻辑门成本下降。摩尔定律既是一项实证观察,也帮助建立了支撑整个计算栈的行业共识。然而,这一共识已不再成立。在7纳米节点之后,几何缩放已无法带来历史性的回报。光刻设备正逼近图案化的物理极限,EUV折旧主导晶圆成本,单晶体管价格曲线已趋于平缓——在某些情况下甚至出现逆转。对于那些无法获取最先进光刻技术的组织而言,这一约束更早生效且影响更为严峻。
因此,行业的核心问题已然改变。不再是”晶体管还能缩小多少?”,而是”应该缩放什么,以什么为目标?”
过去六年来,华为半导体团队在移动SoC、AI加速器、系统互联 fabric 和封装领域,通过硅实践深入研究了这一问题。结论是:答案不在于另一个制程节点,也不在于另一种晶体管架构,而在于改变首要优化目标本身。本文主张,未来十年电子系统的演进不应由几何缩放主导,而应由时间缩放引导——即在整个栈的每一层系统性地降低单一特征时间常数τ,从皮秒级开关的晶体管到秒级响应的数据中心工作负载。
下文将从科学方法论和产业化路线图两个维度阐述τ缩放的理论基础,并结合2020年5月至2026年5月期间实现量产的381颗芯片的实践经验。
1. 几何时代的终结
半导体行业在大部分历史中只有一项任务:让晶体管更小。戈登·摩尔1965年的观察——晶体管密度约每两年翻一番——在十年后得到罗伯特·登纳德缩放理论的补充,该理论确立了电压与尺寸按比例缩小可维持恒定电场的原则。几何缩放与登纳德缩放共同作用,在近五十年间带来了每瓦性能和每美元性能的指数级提升。
这一格局分两个阶段瓦解。约2005年,登纳德缩放首先失效:电压不再与特征尺寸成比例缩小,”暗硅”时代开启。几何缩放凭借FinFET及后续的门极环绕(GAA)器件架构得以延续。然而,在7纳米之后,纯维度缩放的收益已趋于平缓。原因现已广为人知:速度饱和使本征延迟对沟道长度的依赖从二次方降为线性;局部互连的寄生电阻和电容在标准单元延迟预算中的占比日益增大;掩模成本、EUV折旧和设计规则复杂度已将2纳米节点的先进芯片设计预算推高至单芯片超十亿美元。
经济后果同样不可避免。先进节点的单晶体管成本已趋于平缓,而在最前沿节点,成本甚至开始上升。支撑过去五十年的行业共识——每一代以更低成本提供更多晶体管——已不复存在。
对华为半导体而言,这一转型还伴随着额外约束:无法获取最先进的光刻设备。假设通过另一个节点就能解决问题已不再可行。六年前,几何路线图触及天花板,迫使我们提出一个更根本的问题——回顾来看,整个行业终将直面这一问题。
2. 时间,而非空间:摩尔时代的真正货币
还原到对终端用户的本质影响,摩尔定律从来就不是关于几何的。更小的晶体管提升系统性能,是因为它们开关更快;更密集的互连提升性能,是因为信号传输距离更短;更高集成度提升性能,是因为数据跨越的边界更少。每一代本质上交付的是时间的压缩——器件层从皮秒到纳秒,芯片层从纳秒到微秒,系统层从微秒到秒。空间缩放仅是压缩时间的手段。
一旦认识到这一点,一个显而易见的重构便呈现出来:时间本身应被采纳为首要度量标准。可在栈的每一层——晶体管、电路、芯片、系统——定义特征时间常数τ,并将其降低作为统一的优化目标。几何缩放随后成为降低τ的多种技术之一,而非唯一途径。
这一原则称为τ缩放,本文提议其作为几何摩尔缩放的继任者,成为半导体演进的指导原则。形式上,τ被视为分层结构,可分解为:
其中、、和分别表示晶体管层、电路层、芯片层和系统层的时间常数。每一层的τ由其下层组合而成,并包含该层引入的组织与通信开销。τ的工作空间跨越约十二个数量级的时间(皮秒至秒)和相当范围的空间(纳米至公里)。在每一层,均有不同的机制可用于降低τ:
-
晶体管: 本征开关延迟,通过迁移率增强、应变工程、高κ/金属栅极和GAA架构解决,且日益通过降低局部互连的寄生R和C来解决(当前寄生参数已数倍于本征渡越时间)。 -
电路: 信号路径上的RC传播延迟,通过更低电阻率导体、低κ介质解决,且最重要的是通过垂直集成缩短导线长度。 -
芯片: 计算与内存访问延迟,通过架构选择、流水线深度、存储层次和片上 fabric 解决。 -
系统: 端到端消息与同步时间,通过互连拓扑、协议栈和 fabric 设计解决。
从这一分层公式中可得出一个有用的代际规则:
其中缩放因子因应用而异,而非普适。迄今的量产经验表明:功耗受限的移动设备/年,安全关键的自主系统/年,而AI工作负载可达/年(因其吞吐量直接转化为经济价值)。
使τ成为有用的首要度量标准(而非现有指标的重新标签)的关键在于:它是贯穿整个栈的同一度量标准。频率、延迟、带宽和吞吐量在各层均受τ支配。工艺工程师、电路设计师和系统架构师可用相同单位讨论同一物理量。τ是实现端到端栈协同优化的语言——各层独立优化、时序作为残余量浮现的时代已然终结。
3. LogicFolding:移动SoC的实证案例
τ缩放的首次量产级验证在移动领域开展。智能手机SoC是一种特殊情况:单芯片即构成整个系统。多插槽并行不可用;千节点 fabric 无法掩盖慢速链路。用户获得的所有性能均源自单颗芯片,在数瓦功耗预算下,受手持形态因子的热限制约束。
2020年后,当先进制程节点获取受限时,核心问题变为:在节点固定的前提下,如何在单芯片上持续实现代际性能提升?
由此诞生的答案称为LogicFolding(逻辑折叠)。
定义。 LogicFolding是一种设计方法论,遵循时间缩放原则,将数字、模拟和存储电路分区部署于垂直堆叠的有源层,以协同优化性能、功耗和面积。
数字电路可分为组合逻辑(寄存器间的布尔网络)和时序逻辑(保存状态的触发器)。数字系统的性能上限由相邻触发器级间的关键路径延迟决定,而该延迟主要受路径上的互连RC和门数量支配。传统优化将门电路置于平面内,并通过上方金属层布线;导线越长,寄生RC越大,关键路径越慢。
LogicFolding摒弃平面假设。关键路径门电路分布于两个(及未来更多)垂直堆叠的有源层,通过超细间距混合键合连接。从电路设计师视角,两层表现为单一连续 fabric,单元可跨晶圆边界分布,如同额外金属层。信号导线显著缩短,寄生RC急剧下降,时钟偏差收紧,芯片在相同器件节点下可运行于更高时钟频率。
为帮助LogicFolding实现这些增益,保持混合键合间距与顶层金属间距的齿轮比相对较低是有利的——实践中通常低于3,比值越低越好。以当前顶层金属间距约720 nm计,这意味着混合键合间距需低于2 μm——理想情况下齿轮比约为1,此时键合界面的”鸟笼”布线开销基本消失。实现这一间距,连同所需的套刻精度(<0.5 μm)、TSV缩放(CD和KOZ亚1.5 μm,间距亚6 μm)以及良率(智能冗余下~100%),需要跨越供应商与合作伙伴生态系统的多年工艺开发投入。
在麒麟2026上实测的具体成果如下:
-
晶体管密度单代阶梯式提升:从155 MTr/mm²增至238 MTr/mm²(晶体管密度按公式计算;麒麟SoC设计面积利用率为68%)——这一量级的提升以往需三年几何缩放才能实现。 -
SoC性能核心能效提升41%,最高时钟频率提升近13%。 -
跨上下两层构建的高速全局片上网络(NoC)数据路径,使数据路径面积减少55%,同时提升供电稳定性。 -
后硅时钟偏差调整方案独立贡献超5%的SoC性能提升。 -
在SRAM方面(其访问速度、每比特能耗和面积强烈依赖位线与字线长度),LogicFolding缩短了关键路径,降低每比特能耗,工作频率提升超40%。 -
在代表性处理核心上,双层折叠架构使时钟缓冲器数量减少超50%,时钟偏差减少25%,导线长度减少约30%。
这些增益在固定器件节点下实现,并非通过新光刻步骤,而是通过逻辑空间分布在三维拓扑上的重组获得。
麒麟2026量产的LogicFolding实现是刻意保守的:混合键合间距达1.5 μm;TSV落点仅比顶层金属前进一步;折叠仅选择性应用于关键路径,而非全设计。即便如此,CPU性能核心频率今年已回归3.1 GHz。
未来十年,LogicFolding预计将从局部关键路径折叠演进为全规模、多层折叠——每封装三、四及更多有源层——由低温混合键合(放松层间热预算)和TSV落点从顶层金属下移至M6(释放超30%高层布线资源)使能。2026至2035年间,晶体管密度预计将提升至400 MTr/mm²及以上。同时,LogicFolding使麒麟能够显著提升CPU核心频率,并为迈向4 GHz及以上铺平道路(表1)。该路线图在技术上可行,成本上经济可行。
表1. 麒麟CPU性能核心工作频率趋势。
|
|
|
|
|
|
|---|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
侧栏A – LogicFolding速览
混合键合间距: 亚2 μm(麒麟2026为1.5 μm;目标齿轮比≈1) 套刻精度: 低于0.5 μm TSV CD/KOZ: 亚1.5 μm;间距亚6 μm;失效率<100 ppm;修复率99.9% 良率: 智能冗余下~100% 晶体管密度: 单步从155 → 238 MTr/mm² 能效/频率增益(SoC P-core): +41% / +13% SRAM工作频率: +40% 代表性核心的时钟缓冲器数量/时钟偏差/导线长度: −50% / −25% / −30%
4. 从皮秒到微秒:AI数据中心中的τ缩放
一个自然的问题是:在毫瓦级智能手机领域发展的原则,能否平移至AI训练与推理的吉瓦级场景?AI工作负载占据τ谱系的另一端:不是单芯片,而是数百或数千芯片作为单一机器协同工作,过去十年间总算力提升约六个数量级。答案是肯定的——前提是将τ作为系统级目标,并应用于整条链路,而非单一加速器内部。
两个事实塑造了AI侧的τ论证。首先,AI系统持续扩展——从单芯片,到数十、数百,日益增至数万芯片。其次,现代AI系统的能耗预算与物料预算由数据而非计算主导。大型AI集群中,超80%能耗用于数据移动;超70%系统成本用于数据存储。推论直接明了:减少数据在传输中花费的时间——芯片间、机架间、封装内——至少与减少计算花费的时间同等重要。
τ缩放在AI规模上通过三个协同层实现:系统 fabric(统一总线)、近封装光引擎(Hi-ONE)以及封装本身的拓扑重构(3D Folding)。
4.1 统一总线——τ优先的系统 Fabric
传统多节点、多加速器架构通过多层堆叠协议移动数据:主机侧PCIe、机箱内NVLink或私有 fabric、机箱间以太网或InfiniBand,以及上层的软件栈远程内存访问。每层均涉及协议转换、额外序列化、额外DMA缓冲和进一步握手。每次转换增加延迟、降低可靠性并产生额外成本。
统一总线(Unified Bus, UB)以单一协议取代该协议栈,该协议在机箱内及机箱间运行——完全对等、原生暴露内存语义的 fabric,覆盖整个系统。数据移动简化为内存语义层的无转换、点对点传输,以硬件管理的相干性取代软件栈消息传递。
实测收益约两个数量级:端到端远程访问延迟从典型TCP/IP类栈的数十微秒降至约100 ns——系统τ在主导通信轴上实现~500倍压缩。在机架尺度,这使系统渐近逼近单一 fabric 相干机器——内部称为”系统即单芯片”(System-as-One-Chip)。
4.2 Hi-ONE——封装级光互连
通信延迟降低后,下一瓶颈转移。提升单机架内芯片密度将功率密度与可靠性推向极限——同时也将电SerDes推向极限。在每AI芯片400 Gb/s时,铜缆仍成熟可靠。在每芯片多Tb/s时,铜缆变得物理上不可行:SerDes传输距离收缩、布线过于笨重、面板安装不可行、热与供电裕量耗尽。
华为半导体开发的方法是高密度光互连节点引擎(Hi-ONE)——一种近封装光引擎,每模块提供8 Tb/s带宽,与单光链路上的AI芯片UB带宽匹配。它将所需SerDes传输距离从~100 cm缩短至~5 cm,消除笨重布线,并将传输距离从不足1米延伸至100米——使分布式、吉瓦级数据中心的高密度互连在物理上可实现。
Hi-ONE的设计理念本身即是τ缩放论证。为追求高信号保真度,Hi-ONE不采用重型DSP,而是采用线性方案——模拟均衡增强型驱动器和跨阻放大器——并允许UB协议容忍刻意放宽的误码率。这种协议层与物理层的跨层权衡降低了功耗、成本和集成复杂度,体现了τ优先方法论所奖励的跨层权衡。
4.3 N²与N的困境,以及为何3D Folding不可避免
AI加速器不会止步于2.5D扇出的最深层原因是几何性的,值得明确阐述,因其决定2030年后的路线图。
在传统2.5D AI芯片中,逻辑裸片位于封装中心,HBM堆栈和SerDes沿边缘排列,电压调节器环绕封装。每个内存信号、互连信号和每安培供电电流都必须穿越裸片边缘才能到达内部计算资源。若裸片边长为,则:
-
计算能力按缩放(面积), -
但内存带宽、互连和供电——均由2.5D扇出沿边缘承载——仅按缩放(周长)。
二次曲线与线性曲线间日益扩大的差距构成扇出困境,它解释了2.5D缩放停滞的原因,与底层逻辑节点激进程度无关。任何晶体管级改进都无法弥补拓扑赤字。
3D Folding通过将边缘绑定资源迁移至表面来解决这一困境。供电(通过背侧供电和集成电压调节器)、高速内存(通过与逻辑的混合键合)和光互连I/O(通过近封装Hi-ONE)均从周长迁移至垂直表面——一旦位于表面,它们便按缩放,与计算的二次增长同步。封装不再是逻辑裸片被内存和SerDes的周长带环绕;而成为垂直集成堆栈,其中内存、fabric、供电和逻辑协同缩放。
路线图将这一演进置于明确时间线上。约2030年前,AI加速器(昇腾SuperPoD系列——2025年昇腾910C、2026年昇腾950及后续990)依赖成熟技术组合:芯粒、2.5D扇出、以及通过微凸点和标准间距混合键合的3D堆叠。约2030年,昇腾990将在AI加速器类别引入LogicFolding,此后3D Folding成为2035年前的主要载体。沿此路径,预计到2035年硬件集成度将增长超100倍,τ降低分布于栈的每一层,而非集中于器件层。
侧栏B – AI系统尺度的τ
UB远程访问延迟: ~数十μs → ~100 ns(≈500× τ降低) HiONE每模块带宽: 8 Tb/s(匹配每芯片UB带宽) HiONE SerDes传输距离: ~100 cm → ~5 cm;面板间距离:<1 m → 100 m 扇出困境: 计算,周长绑定的带宽/互连/供电 3D Folding: 将带宽、光互连、供电从边缘迁移至表面,恢复对等 2026 → 2035 预计硬件集成度增长: >100×
5. 逻辑与内存:从解耦到再融合
τ缩放的一个推论值得单独讨论,因其后果兼具技术与产业层面。
在8086时代,行业通过标准化内存总线有意将处理器与内存解耦。该解耦使两个产业可独立缩放:处理器性能沿摩尔曲线快速进步,而内存厂商则发展出庞大且独立的并行市场。
AI时代正在逆转这一解耦。计算密度的持续扩展正将内存带宽、延迟、功耗和封装推向极限。HBM、混合键合和3D堆叠SRAM是单一底层事实的症状:对现代AI工作负载而言,数据移动与计算同等关键,逻辑与内存正再次被推向紧密物理集成。随着二者融合,供应链中的影响力平衡正转向内存与封装厂商。
技术方向明确,但经济解决方案尚未定型。在AI硬件时代取得持久成功者,将是那些能在技术上融合逻辑与内存,并建立经济伙伴关系使双方长期共享融合收益的参与者。这不仅是研究问题;更是产业未来十年需解决的结构性问题。通过使每一层分离的跨层成本可见,τ缩放确保该问题无法被推迟。
6. 开放挑战
将τ缩放呈现为已完成体系具有误导性。若干实质性问题仍待解决,此处列出既为突出持续工作,也为邀请协作。
-
工具链与方法论。 当今EDA开发于面积、时序和功耗沿三个独立轴优化、系统τ作为残余量浮现的时代。全规模LogicFolding要求工具链将多颗堆叠裸片视为单一连续设计实体——以单元粒度而非模块粒度划分逻辑、在统一成本函数下跨全三维空间布局、并在垂直互连寄生参数、KOZ排除区和晶圆间工艺变异以传统2D训练工具无法充分处理的方式交互的情况下,完成跨裸片路径的时序收敛。初步内部工具已开发并产生有用结果,方法论细节将于未来数月发布。τ原生工具链——开放、多物理场、3D原生——是未来十年最关键的使能投资。 -
晶圆间工艺变异。 LogicFolding键合可能来自不同批次——甚至不同节点——的晶圆。、驱动电流和互连RC的晶圆间变异显著大于晶圆内变异,且对时钟分布和保持时间裕量影响最重。智能冗余、自适应补偿和τ感知签核流程是应对的必要组成部分。 -
垂直互连开销。 每个混合键合点和每个TSV均产生有限的电阻电容代价,且TSV KOZ会挤占标准单元。因此LogicFolding必须逐层通过简单不等式论证其合理性: 该阈值已在移动关键路径和内存场景跨越;阈值具有负载特异性,且将随键合间距缩小而移动。 -
能耗。 τ是时间定律,而非焦耳定律。运行快10倍但功耗高10倍的超级节点不违反任何缩放原则,却会超出电网容量。因此τ缩放需要能耗伴侣:消除栈开销的内存语义 fabric、降低每比特皮焦耳数个数量级的近/共封装光互连、背侧供电、存内/近存计算,以及将τ裕量折回功耗的规范实践(数据中心尺度的DVFS——与延长智能手机电池续航的机制相同)。重要的是,τ裕量本身在朝该方向分配时可提供能耗裕量。 -
基准测试。 行业当前性能基准——Linpack、MLPerf、SPEC——设计于单标量足以描述工作负载的时代。τ缩放产业需要τ剖面基准——向量形式,暴露系统每层的主导τ及该层剩余裕量。主导τ层按定义即为下一投资重点。
7. 六年实践,十年展望
2020年5月至2026年5月间,华为半导体设计并量产了381颗芯片,服务移动、AI、汽车、工业和基础设施市场。在该产品组合中,τ缩放理论经受住了验证:
-
在器件与电路层, 晶体管密度已从155 MTr/mm²向2031年的400+ MTr/mm²提升。 -
在芯片层, LogicFolding在领先移动SoC上证明:关键路径频率、能效和密度可在固定器件节点下持续进步。 -
在系统层, 统一总线和Hi-ONE证明:数百微秒的通信τ可压缩至数百纳秒,多机架AI集群可作为单一相干机器运行。
展望未来,预计到2029年CPU性能核心频率将迈向4 GHz及以上,麒麟SoC在典型使用场景下的能效预计三至五年内翻倍以上,AI硬件集成度预计到2035年增长超100倍。
超越任何单一产品的更深层主张是方法论层面的。τ缩放是自登纳德以来首个为整个栈提供共享优化目标的缩放原则。它向工艺工程师、电路设计师、架构师、系统工程师和软件团队发出信号:这些社区现在正以相同单位优化同一物理量,且任何单层的改进必须传播至系统τ才算有效。它也向产业战略制定者和资本配置者表明:下一美元应追随τ,而非节点——竞争性能不再需要永久驻留于光刻最前沿,封装、内存带宽和 fabric 设计现已获得此前仅由领先逻辑节点独享的战略权重。
对于被教育将”摩尔定律”等同于”进步”的一代工程师而言,这是艰难的转型。几何时代事实上已然终结;否认这一事实并非可行策略。通过微型化加速的时代正让位于通过多层电子系统τ优化加速的时代——未来六至十年内采纳τ为首要目标的公司、研究团队和生态系统,将决定其后十年计算的形态。
未来十年的工作范围已划定。许多开放问题仍存,单一组织无法独自解决——工具链、标准、基准、器件物理和经济模型均需超越单一公司的贡献。因此,本文既是一份来自一线的报告,也是一份邀请。
前路充满挑战,但方向明确。
作者
何廷波领导华为半导体业务。其团队在2020至2026年间设计并量产了381颗芯片,覆盖移动、AI、汽车和基础设施市场,也是本文所述τ缩放方法论及LogicFolding、统一总线、Hi-ONE技术的来源。
致谢
本文观点源自华为半导体及其晶圆厂、设备、EDA和系统合作伙伴生态中数千名工程师六年的工作。作者感谢使本工作成为可能的客户的耐心。
延伸阅读
-
G. E. Moore, “Cramming more components onto integrated circuits,” Electronics, vol. 38, no. 8, pp. 114–117, Apr. 1965 (reprinted in Proc. IEEE, vol. 86, no. 1, Jan. 1998). -
R. H. Dennard et al., “Design of ion-implanted MOSFETs with very small physical dimensions,” IEEE J. Solid-State Circuits, vol. 9, no. 5, pp. 256–260, 1974. -
J. L. Hennessy and D. A. Patterson, “A new golden age of computer architecture,” Commun. ACM, vol. 62, no. 2, pp. 48–60, Feb. 2019. -
M. Horowitz, “Computing’s energy problem (and what we can do about it),” ISSCC Dig. Tech. Papers, pp. 10–14, Feb. 2014. -
International Roadmap for Devices and Systems (IRDS) – Interconnect and More-than-Moore chapters, 2023/2024 update. -
P. Batude et al., “3D sequential integration: a key enabling technology for heterogeneous co-integration of new functions with CMOS,” IEEE J. Electron Devices Soc., vol. 3, no. 3, pp. 205–216, 2015.
本版本发布于2026-05-25. ChinaXiv:202605.00224v1
夜雨聆风