乐于分享
好东西不私藏

AI Infra进化:从硬件内卷到软件生态突围

AI Infra进化:从硬件内卷到软件生态突围

当前行业普遍陷入一个认知误区:认为AI Infra的核心就是“堆芯片、建集群”,只要硬件算力足够,就能支撑大模型快速迭代。但现实远非如此。

  预计阅读时间:8分钟

AI基础设施(AI Infra)是支撑大模型训练、推理与行业落地的核心底座,技术栈层层嵌套、环环相扣。

底层是CPU、GPU、NPU等异构芯片,搭配服务器、网络、存储组成的硬件集群;中间是编译器、算子库、深度学习框架构成的基础软件层;最上层则是分布式计算优化系统与软件生态,最终承载着千行百业的AI应用开发与部署需求。

当前行业普遍陷入一个认知误区:认为AI Infra的核心就是“堆芯片、建集群”,只要硬件算力足够,就能支撑大模型快速迭代。

但现实远非如此。随着模型参数从百亿级迈向万亿级、集群规模从千卡扩展至万卡,硬件性能的提升早已遭遇“边际效应”,而异构硬件的生态割裂、分布式集群的协同低效,正成为制约AI规模化落地的最大瓶颈。

01

认知纠偏:AI Infra的核心,从不是“堆硬件”

中国信息通信研究院院长余晓晖曾明确表示,单靠芯片应用提升无法满足大模型需求,极致的软硬件协同优化才是支撑大模型快速迭代的关键。当硬件差距难以在短期内弥合,上层分布式计算优化与软件生态的价值被前所未有地放大:它不再是硬件的“附属品”,而是打通异构壁垒、释放算力价值、降低应用门槛的“核心枢纽”。

要理解上层软件生态的核心价值,首先要理清AI Infra的全栈架构与层级分工,跳出“只看硬件、不见全局”的局限。

底层硬件是AI Infra的基石,是算力的“物理载体”,包括异构计算芯片(GPU、NPU、ASIC等)、高速互联网络(如NVIDIA Spectrum-X、ETH-X超节点网络)、高密度存储(HBM、AISSD)及整机柜、液冷数据中心等基础设施。它的核心作用是提供原始算力、数据存储与传输能力,决定着AI Infra的性能上限,但无法直接解决“算力如何高效调度、异构如何兼容、开发如何简化”这些核心问题。

中层基础软件则是连接硬件与应用的“翻译官”,涵盖编译器(如XLA、TVM)、高性能算子库(如cuDNN、CANN)、深度学习框架(如PyTorch、TensorFlow、MindSpore)。它的核心价值是将上层AI代码编译为硬件可执行指令,优化核心算子性能,降低硬件开发门槛,但仍局限于“单一硬件适配”,解决不了跨芯片、跨集群的分布式协同难题。

真正能释放AI Infra全部价值的,是上层分布式计算优化与软件生态,这一层堪称AI Infra的“大脑”,也是当前行业最薄弱、却最具价值的环节,核心包括分布式训练/推理优化系统、异构资源调度平台、开发工具链与生态服务。

其价值主要体现在两个方面:对内,通过分布式计算优化,解决万卡集群的通信延迟、负载均衡、容错调度问题,让硬件算力利用率最大化;对外,通过统一软件生态,抹平不同硬件底层在开发生态上的差异,让AI开发者无需关心底层芯片型号、集群架构,就能快速开发、部署AI应用。

正如袁进辉博士所言,AI Infra真正的长期价值,在于连接硬件供给与应用需求之间的“技术鸿沟”,而上层软件生态,正是跨越这一鸿沟的关键。

02

核心痛点:两大矛盾困住AI规模化落地

当前AI Infra面临的核心挑战,本质上是两大矛盾:硬件多样性与软件统一性的矛盾,集群规模化与协同高效性的矛盾,具体体现在两个突出痛点上。

痛点一:异构硬件“生态孤岛”,开发迁移难成本高

第一个痛点是异构硬件的“生态孤岛”,直接导致开发成本高、迁移难度大。如今全球AI芯片市场呈现“多强竞争、碎片化严重”的格局:国外有NVIDIA GPU主导高端训练市场,AMD、英特尔紧随其后;国内有华为昇腾、寒武纪、壁仞等NPU厂商快速崛起,且每家都在构建独立的软件栈与开发生态。

这种碎片化带来了三个致命问题:

一是开发锁定,不同厂商芯片的编译器、算子库、框架适配互不兼容,开发者基于A芯片开发的模型,几乎无法直接迁移到B芯片,需要大量重构代码、重新优化,迁移成本极高;

二是人才壁垒,开发者必须针对不同芯片学习专属开发工具与优化技术,人才培养成本高,且通用性差;

三是资源浪费,企业为适配不同硬件,需重复投入开发与运维资源,不仅算力利用率低,成本也居高不下。

新华三副总裁李乔就曾直言,不同厂商AI芯片软件栈不同,跨厂商互联互通存在风险,已成为制约异构集群规模化应用的核心障碍。

痛点二:分布式集群“协同低效”,算力浪费严重

第二个痛点是大规模分布式集群的“协同低效”,导致算力利用率低、训练速度慢。大模型训练离不开万卡级分布式集群,但传统集群管理系统存在三大明显瓶颈:

一是通信延迟高,多节点间数据同步、梯度聚合的耗时,能占到训练总耗时的40%-60%,集群规模越大,通信瓶颈越突出;

二是负载不均衡,不同芯片的算力、显存差异较大,模型并行时难以精准切分负载,最终出现部分节点闲置、部分节点过载的情况,算力利用率不足50%;

三是容错能力弱,大规模集群中硬件故障概率本就不低,传统系统故障恢复速度慢,往往需要重新启动训练,浪费大量算力与时间。

IDC中国区副总裁武连峰也指出,传统节点已无法满足万亿规模模型训练需求,分布式协同低效、资源调度不灵活,正成为算力效能提升的核心阻碍。

03

破局之路:软件定义,抹平鸿沟释放算力价值

面对这些痛点,专注上层分布式计算优化与软件生态的技术路线,成为行业破局的关键。其核心逻辑很简单:不改变底层硬件,而是通过软件定义的方式,构建“统一接口、统一调度、统一开发”的生态体系,让异构硬件实现“协同作战”,让AI开发变得“简单高效”。

突破一:异构硬件“大一统”,打破生态壁垒

在异构硬件“大一统”方面,上层软件生态通过构建异构资源管理平台与统一软件接口,实现了三大核心能力。

一是硬件抽象化,屏蔽不同芯片的底层差异,比如指令集、内存架构、通信协议等,为上层应用提供统一的编程接口,真正实现“一次开发、多硬件部署”,彻底解决硬件锁定问题;

二是算子兼容化,构建跨芯片的统一算子库,自动适配不同硬件的算子优化规则,无需开发者手动优化,大幅降低开发门槛;

三是生态开放化,支持国内外主流AI芯片接入,避免单一厂商垄断,让企业可以根据成本、性能需求灵活选择硬件,降低采购与运维成本。比如国内部分企业推出的异构加速平台,已实现对NVIDIA、华为昇腾、寒武纪等主流芯片的统一适配,模型迁移效率提升80%以上,极大缩短了开发周期。

突破二:分布式计算“极致优化”,提升算力利用率

在分布式计算“极致优化”方面,上层分布式计算优化系统从通信、调度、容错三大维度实现突破。

一是通信优化,自研高性能集合通信库替代传统NCCL,优化AllReduce、All-to-All等核心通信原语,将通信延迟大大降低,支持万卡集群线性扩展;

二是智能调度,依托AI算法的负载均衡调度器,实时感知不同节点的算力、显存利用率,动态调整模型切分与任务分配,让算力利用率提升至80%以上;

三是容错自愈,实现节点故障自动检测、任务自动迁移、训练断点续训,将故障恢复时间从小时级缩短至分钟级,大幅降低大规模训练的风险与成本。

中科曙光高级副总裁李斌就曾表示,分布式计算优化是释放集群算力潜力的关键,通过软件层面的极致优化,可让硬件算力利用率提升30%以上,训练效率实现质的飞跃。

04

终极价值:让AI开发从“专家专属”走向“全民可用”

而上层软件生态的终极价值,是让AI开发从“专家专属”走向“全民可用”。

一方面,提供从数据处理、模型开发、训练优化到部署运维的全流程工具链,开发者无需搭建复杂环境,就能快速上手;

另一方面,通过低代码/无代码开发模式,封装底层复杂逻辑,提供可视化开发界面与预训练模型库,降低AI开发的技术门槛,让传统行业工程师也能快速开发AI应用。

同时,构建开放的AI软件生态,汇聚开发者、企业、科研机构的力量,共享模型、算法、工具,加速AI技术迭代与行业落地。

未来,AI Infra的发展将呈现三大核心趋势,上层分布式计算优化与软件生态的战略地位将进一步凸显。

一是软硬件深度协同,硬件设计将更贴合上层软件生态需求,软件优化也将深度适配硬件特性,形成“硬件定制化、软件通用化”的协同发展模式,最大化系统整体效能;

二是异构全栈兼容,未来将实现CPU、GPU、NPU、ASIC等所有计算单元的统一调度与管理,达成“算力池化、软件统一化”,彻底打破异构硬件的生态壁垒;

三是生态开放共建,行业将摒弃封闭生态思维,走向开放共建,构建“标准统一、技术共享、利益共赢”的AI软件生态,加速AI技术在千行百业的规模化落地。

AI基础设施的竞争,早已不是简单的“硬件算力竞赛”,而是全栈技术能力、软件生态成熟度、规模化落地能力的综合较量。当硬件差距难以短期弥合时,专注上层分布式计算优化与软件生态,通过高性能优化系统抹平异构硬件的生态差异,释放算力价值、降低开发门槛,才是AI Infra破局的关键。

未来,随着AI应用的持续爆发,软件定义的AI Infra将成为行业主流,而上层软件生态的构建能力,将直接决定企业在AI时代的核心竞争力。

宝利投资作为一家专业的投研服务企业,始终聚焦生物医药、人工智能、AI算力芯片、商业航天等硬科技领域,以全周期、专业化的投研服务,深度赋能科技创新企业成长,为行业发展注入强劲动能。

推荐阅读

• 宝利热搜 •

【荣誉】2024杰出投资机构奖

【人物】2024(行业)影响力人物

【人物】2023年度责任商业领袖

【荣誉】2023杰出财富管理机构奖

【荣誉】2023年度责任金融奖

【荣誉】S基金TOP20

【荣誉】2021-2022年度影响力S基金管理机构

【荣誉】中国集成电路与半导体领域最具成长性投资机构

【专访】融中财经 | 【专访】中国商界

【专访】中国企业报