
现在人工智能发展得特别快,尤其是那些需要海量数据和复杂计算的生成式AI和超大模型,这让大家突然意识到,算力这东西不再是后台的技术支持,已经变成了国家战略级的核心能力,就像电力、交通一样重要。
2025年的时候,国家高层专门组织学习,明确了发展人工智能的三个大方向:必须自己掌握核心技术、要能实际用起来、国家会大力支持。重点要攻克高端芯片、基础软件这些“卡脖子”的技术,目标是建立起咱们自己说了算的AI软硬件体系。这样一来,建设算力基础设施就成了重中之重,被提到了前所未有的战略高度。
再加上几个大趋势的推动:一是“东数西算”工程持续推进;二是国家把“算电协同”(让算力需求和电力供应高效匹配)正式纳入了新基建;三是国外对我们技术封锁越来越严。在这些因素叠加下,中国的AI算力产业正在经历一场深刻的变革:算力从通用型转向智能专用型,从分散建设转向集群化布局,从依赖进口转向自主可控。整个产业链,从最底层的芯片,到服务器集群、网络、调度系统,再到上层应用,都在进行一场全面重构。
一、算力格局大洗牌:智能算力成主角,“东数西算”进入算电协同新阶段
以前以CPU为主的通用算力,已经跟不上训练和运行大模型所需的并行计算要求了。现在,智能算力成了产业增长的核心发动机,算力结构从“通用为主”彻底变成了“智能为主”。
通用算力:以CPU为核心,主要用在云计算、边缘计算这些基础场景,处理一些计算复杂度不高的任务。
智能算力:以GPU、FPGA、AI专用芯片为核心,专门用来搞大模型训练、多模态内容理解这些高难度计算,支撑像AI医疗、自动驾驶、机器人这些高端应用。
超算算力:依靠超级计算机,服务于航空航天、基因分析、气象预测这些顶尖科研领域,商业化应用的门槛比较高。
“东数西算”工程已经建成了八大国家算力枢纽和十大数据中心集群。简单说,就是让京津冀、长三角、粤港澳、成渝这四个东部枢纽,去处理那些对反应速度要求高的“推理”业务(比如实时对话);而内蒙古、宁夏、甘肃、贵州这四个西部枢纽,利用当地能源和成本优势,承载那些对时间不太敏感、但计算量巨大的“训练”业务。这样就形成了一个梯度布局。
到了2026年,政策又升级了,“算电协同”第一次写进了政府工作报告。要求新建的数据中心,用的绿色电力比例不能低于80%。西部枢纽的数据中心能耗效率(PUE)要严控在1.2以下,东部的要控制在1.25以下。这推动算力和电力从各搞各的走向深度融合,目标是让西部的清洁能源直接对接东部的算力需求,从根本上解决传统算力中心能耗高、成本高的问题。
到2025年底,国家枢纽节点新增的算力占了全国新增算力的60%以上,其中智能算力的规模占比超过了80%。全国算力总规模达到300 EFLOPS,每年增速接近30%。智能算力在总规模中的占比超过60%,而用于运行AI模型(推理)的算力需求占了70%,已经超过了用于训练模型的算力,成为产业增长的核心。现在的算力,已经不再是单一的计算资源,而是融合了计算、网络、存储、电力的新型基础设施,成了AI产业的“命脉”。
二、集群技术大革新:纵向扩展+横向扩展双管齐下,万卡集群突破性能极限
AI大模型的参数规模从千亿奔向万亿,单台服务器或单个机柜的算力已经碰到物理天花板了。所以,超大规模的算力集群成了承载高级AI任务的唯一选择。它的核心思路是通过两种路径来突破单点算力的瓶颈:一是把单个节点做得更强大(Scale Up,纵向扩展),二是把很多节点连起来协同工作(Scale Out,横向扩展),从而实现成千上万甚至十万张显卡的高效协作。
1. Scale Up(纵向扩展):造“超节点”,打破芯片间的通信壁垒
这个方向专注于提升单个服务器节点内部的算力密度,通过塞进更多芯片、优化芯片之间的高速连接协议,让单个节点的算力呈指数级增长。传统的PCIe协议速度和延迟跟不上AI并行计算的需求,所以像英伟达的NVLink、华为的UB、AMD的UA Link这些专用协议就出现了。比如NVLink已经发展到第五代,单个GPU的通信带宽能达到1800GB/s,远超最新的PCIe标准。华为的UB协议,支持将384颗昇腾910C芯片集成到一个“超节点”里,提供惊人的算力,在万卡规模下的协同效率超过95%,长时间训练的稳定性也领先行业。
“超节点”是纵向扩展的最佳方案,它把几十到几百颗AI芯片用超高速总线集成在一起,让GPU之间能像共享内存一样高效通信,延迟只有百纳秒级别。这非常适合张量并行、专家并行这些需要极高通信带宽的计算模式,能大大缩短大模型的训练时间。液冷技术成了这种超节点的标配。冷板式液冷比较成熟,成本可控;浸没式液冷散热效率极高,适合功率密度特别高的机柜(20千瓦以上),有效解决了万卡集群的散热难题。2024年,新建的智算中心项目超过80%都采用了液冷方案,这已经成为主流。
2. Scale Out(横向扩展):用高速网络连接集群,构建分布式算力网络
这个方向通过高速网络把大量的超节点连接起来,形成一个分布式的庞大算力集群。核心要解决的是节点与节点之间的通信瓶颈,以支持流水线并行、数据并行等计算模式。目前行业主流采用RDMA over Converged Ethernet (RoCEv2) 技术路线,基于开放的以太网实现低延迟、高带宽通信,在性价比和开放性上有优势,正在逐步替代昂贵且封闭的InfiniBand私有协议,成为国产算力集群的首选。
国产网络技术也取得了关键突破。比如中科曙光自研的ScaleFabric高速网络,端到端延迟能低到0.9微秒,单个端口带宽达到800Gbps,能支持部署超过11.4万张卡的集群,打破了海外垄断。光模块也在向800G、1.6T升级,中际旭创、华为、光迅科技等中国厂商占了全球光模块市场的半壁江山。400G及以上的高速光模块成了AI集群的标配,有效解决了海量数据传输的拥堵问题。
纵向扩展和横向扩展协同,形成了“超节点+高速网络”的双层架构。这样既保证了单个节点内部的极致性能,又实现了整个集群规模的横向无限扩展,支撑了十万卡级别超大规模智算集群的落地。
三、全产业链自主攻坚:从芯片到软件,国产算力打破海外垄断
AI算力产业的核心竞争力,说到底在于基础软硬件是不是自主可控。面对国外的技术限制,中国算力产业链从上游的芯片,到中游的网络和平台,再到下游的应用,全链条都在加速国产替代,正在构建起完整自主的技术生态。
1. 芯片:从追赶走向并跑,三条技术路线全面覆盖
AI芯片是算力的心脏,主要有GPU、FPGA、ASIC三条技术路线,国产厂商都在全面布局,先从对性能要求相对较低的推理端突破,再慢慢向高难度的训练端渗透。
GPU路线:高端市场主要还是英伟达、AMD占着。但国内的寒武纪、海光信息、摩尔线程等已经实现了技术突破,像海光的DCU、华为的昇腾910系列,已经能支撑千亿参数大模型的训练,性能接近国际主流水平。
FPGA路线:复旦微电、安路科技、紫光同创等公司在引领国产替代,产品覆盖高、中、低端,适合边缘计算、工业控制这些需要灵活定制的场景。
ASIC路线:阿里的含光800、百度的昆仑芯、腾讯的自研推理芯片等,专注于特定场景,在推理效率和能耗比上比通用芯片更有优势,成本也更低,在推理场景的国产化率已经超过80%。
此外,高带宽内存(HBM)也实现了关键突破。国产HBM产品打破了海外垄断,专门为国产AI芯片优化,带宽利用率提升了40%,成本降低了30%,解决了高端存储“卡脖子”的问题,支撑了国产算力集群的规模化部署。
2. 硬件配套:液冷、供电、网络全链条升级
AI服务器正在向“一机多卡”、高功率密度演进。浪潮信息、中科曙光、华为等主导着国产服务器市场。服务器类型也在从主要用于训练的“训练型”向主要用于部署运行的“推理型”转变,以适应市场需求结构的变化。
液冷产业链已经成熟,液冷板、冷却液分配单元、快速接头、冷却液这四大核心环节的国产化率不断提升。英维克、高澜股份、巨化股份等厂商形成了完整配套,成本比进口产品降低了40%以上。
供电系统也在向高效、绿色转型。高压直流电源(HVDC)正在替代传统的UPS,转换效率提升了20%。操作系统、中间件、数据库等基础软件也实现了自主可控,像统信UOS、银河麒麟、欧拉、云龙蜥这些国产系统,都已经完成了对算力场景的适配,构建了安全稳定的软件基础。
3. 中游平台:算力调度走向市场化,云计算和IDC双轮驱动
算力网络正在成为一种新型信息基础设施,它把计算、存储、网络资源虚拟化、统一调度,可以弹性伸缩。商业模式也从重资产的算力租赁,向轻资产的运营服务转型。算力调度平台形成了国家级、区域级、企业级三层格局。三大电信运营商、中科曙光主导国家级平台;像思特奇、云赛智联这些公司布局区域级平台,实现了跨枢纽、跨区域的算力精准调配。
云计算是算力的核心载体,形成了IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)三层服务体系。阿里云、天翼云、华为云、腾讯云占据了国内公有云市场前五,国资云也在快速崛起,服务于国企数字化转型和政务数据开放。数据中心(IDC)行业正在向智算中心升级,互联网厂商、运营商、第三方IDC公司三足鼎立。万国数据、光环新网、宝信软件等头部企业集约化优势明显,智算中心的算力规模占比超过30%,成了算力供给的核心主体。
四、应用遍地开花:算力赋能各行各业,自主生态形成闭环
算力基础设施的完善,推动AI应用从互联网公司快速渗透到金融、医疗、教育、智能制造、自动驾驶、政务等千行百业。AI+垂直行业进入了规模化落地期,形成了算力供给和应用需求相互促进的良性循环。
AI+办公:像WPS AI、彩讯科技的智能办公方案,能实现语音交互、自动化写作、数据处理,办公效率提升50%以上。
AI+金融:新致软件、云从科技等提供的方案,赋能智能理赔、反欺诈、风险识别,能实时处理海量交易数据。
AI+医疗:卫宁健康的WiNEX Copilot结合医学影像和大模型,能实现疾病的精准诊断,推动个性化医疗。
AI+自动驾驶:中科创达的滴水OS支撑中央计算架构,实现了车、云、边缘、终端的协同,能进行实时感知和决策。
应用场景的多样化,反过来又逼着算力技术不断迭代、成本持续下降。国产算力生态正从“硬件能用”向“好用、易用”升级。像DeepSeek这样的大模型,已经能基于国产芯片进行原生的训练和推理,彻底摆脱了对国外硬件的依赖,形成了从芯片、到集群、到平台、再到应用的完整自主闭环。
五、产业未来展望:自主可控+绿色高效,算力成为新质生产力的核心引擎
2026到2027年将是中国AI算力产业的关键攻坚期,三大趋势将重塑产业格局:
1.自主可控全面深化:国产AI芯片的市场占有率将突破50%,在训练场景实现规模化替代,基础软硬件的国产化率超过70%,彻底打破海外技术垄断。
2.绿色算力成为标配:“算电协同”全面落地,西部枢纽的绿色电力使用比例将达到100%,液冷技术普及率超过50%,数据中心能耗效率(PUE)稳定控制在1.2以内,算力产业实现低碳可持续发展。
3.算力网络一体化:全国一体化的算力网建成,跨枢纽调度的延迟不超过20毫秒,算力可以像水电一样进行市场化交易,成为便捷取用的公共资源。
从攻关高端芯片,到建设万卡集群;从布局“东数西算”,到落地“算电协同”,中国的AI算力产业已经完成了从跟跑到并跑的跨越,正在向全球领跑迈进。算力作为一种新型生产力,不仅支撑着AI技术的迭代,更成为数字经济发展、培育新质生产力的核心支撑。未来,谁掌握了自主可控、高效绿色的算力基础设施,谁就占据了AI时代的战略制高点。这场席卷全产业链的革命,其实才刚刚开始。

夜雨聆风