我敢断言,下一个AI竞争的关键战场,已经从“芯片算力”转移到了“数据搬运”效率。
我们总在谈论英伟达的GPU有多强,国产算力卡差距有多大,仿佛算得快就能赢。这个想法,从一开始就错了。真正的瓶颈,不是计算本身,而是喂给计算芯片的数据太慢、太笨。这就好比,你造了一台世界最顶级的榨汁机,但给它喂橙子的,是几个慢吞吞的老太太。榨汁机再强,也只能等。
这就是为什么,当我知道上海交大的刘方鑫教授要在AICon上分享“存算协同优化”时,我立刻意识到,这比听十场GPU架构演讲都重要。他讲的是最核心、最要命,却最被忽略的环节:如何让数据这锅“原料”,高效、精准地流到算力这个“灶台”上。
一、99%的算力,浪费在了“等待”上
我们太痴迷于算力峰值数字了。H100的FP16算力是多少TOPS,国产卡又追到了多少。但没人告诉你一个残酷的事实:在绝大多数AI训练和推理场景里,计算单元超过99%的时间,不是在计算,而是在等数据。
芯片内部的ALU(计算单元)嗷嗷待哺,但数据却卡在了路上。从哪里卡住?
第一站,内存墙。 数据从硬盘(HBM或DRAM)搬到芯片片上缓存,这个搬运速度,远慢于芯片的计算速度。计算一秒能干完的活,等数据可能得十秒。 第二站,存储墙。 更惨的是,当数据连内存都装不下,需要从更慢的SSD甚至网络存储里搬的时候,延迟更是灾难级的。这就不是老太太喂橙子了,是得从另一个省调橙子过来。 第三站,编排混乱。 就算路修宽了(带宽提升),但如果运输调度一团糟——该来的数据没来,不该来的堵在路上,算力照样闲置。所以,只盯着“榨汁机”的转速升级,是典型的工程师思维。产品经理会问:我们能不能优化橙子的采摘、清洗、传送动线?甚至,我们能不能把榨汁机搬到橙子园旁边?
刘方鑫教授研究的“从数据表征到数据流编排”,本质上就是这场“橙子运输体系”的顶层设计革命。它问的是:数据用什么格式存、存在哪、按什么顺序送,才能让算力一刻不停地“饱腹”工作?
二、优化“搬运”,效果比升级“机器”更惊人
让我分享一个可能颠覆你认知的观点:优化数据搬运的收益,远高于提升芯片算力。
为什么?因为芯片算力的提升,遵循着艰难的物理定律和摩尔定律的放缓,每年能有个百分之几十的提升就了不起了。但数据搬运的优化,是在逻辑和算法层面动刀,提升空间常常是几倍、甚至数量级的。
举个例子。训练大模型时,海量数据需要反复读取。传统方法就是一条流水线:读数据→计算→写结果。但如果我能在数据表征时动点手脚呢?
比如,我知道接下来10次计算,有8次都要用到某个共同的中间结果。那我是不是可以提前把这个结果,用一种更容易被快速读取的格式,放在离计算单元最近的地方?甚至,我能不能预测计算单元接下来“想吃什么”,提前把“菜”备好?
这就是“数据表征”和“流编排”在做的事。它像一个极度聪明的“AI食堂管理员”,不仅知道今天做什么菜(数据),还知道每个厨师(计算核心)的口味和速度,更预测到了用餐高峰。它提前把食材处理好、分装好、按序摆在厨师手边,保证厨师伸手就能拿到,一刻不闲。
这种优化,可能让同一块GPU芯片,有效算力提升30%、50%甚至更多。这相当于,你什么都没换,免费给自己的AI机房做了一次“超频”。这笔账,任何一个企业CIO都会算。
三、产品思维的胜利:让复杂隐形,让效率显现
所有伟大的技术,最终都要回归产品思维。而产品思维的核心是:把复杂留给系统,把简单留给用户。
今天的AI基础设施,太“工程师化”了。用户(AI研发团队)被迫要懂很多硬件知识:内存带宽、NVLink拓扑、存储IOPS……他们本应只关心模型和算法。
存算协同优化的高级境界,正是让这种复杂隐形。未来的AI算力平台,不应该让用户纠结“我的数据该怎么放”。系统应该自动地、智能地完成这一切。用户只需要说:“我要训练一个千亿参数的大模型,这是数据。” 底层系统就应该像自动驾驶一样,规划出最优的数据流路径。
刘方鑫教授的研究,正是在为这个“自动驾驶”的AI算力底层编写核心算法。从数据怎么存(表征),到数据怎么走(编排),再到存和算怎么配合(协同),这是一套完整的、系统级的解决方案。
我认为,这恰恰是中国AI基础设施领域实现弯道超车的一个关键机会点。在绝对芯片性能上追赶需要时间,但在系统级优化、软硬件协同上,我们完全有可能做出更聪明、更高效的设计。因为优化算法和软件,是我们的强项。
四、商业启示:下一波独角兽,藏在“效率”里
最后,谈谈商业判断。
当所有人都涌向“造芯”(算力制造)这条拥挤的赛道时,我判断,“用好芯”(算力效率)将催生下一批百亿美金级别的公司。
理由很简单:算力越来越贵,越来越稀缺。无论是买英伟达的卡,还是用云上昂贵的算力实例,企业的成本压力巨大。谁能用一套软件或系统方案,帮企业把现有算力的有效利用率提升30%,谁就是在直接为客户节省真金白银。这种价值,客户买单会非常痛快。
这不仅仅是做“优化工具”的生意。它可能催生新的算力供给模式。比如,一个通过极致存算协同优化,能让老旧GPU集群发挥出接近新集群性能的“算力翻新”服务。或者,一个能智能调度跨地域、跨厂商异构算力的“算力效率云”。
它的核心壁垒,不是硬件,而是深度的系统软件know-how和算法。这正是刘方鑫教授这类学者专注的领域,也是很多从大厂出来的顶尖架构师可以大展拳脚的舞台。
所以,如果你是一位AI创业者,或者正在关注AI基础设施投资,别再只盯着芯片了。看看数据的“流淌之路”,看看那些让算力不再饥饿的“后勤大师”。这里面的机会,可能比想象中更大。
回到开头我的断言:AI的决胜点,从来不是单纯的算力制造,而是将算力转化为有效智能的“效率”。而效率的提升,始于对“数据搬运”这一最朴素环节的深刻理解和重新设计。
这,才是AI算力战争下半场的真正序幕。
本文由 写作鹅 创作
夜雨聆风