AI算力战争,决胜于“搬运”而非“制造”

我敢断言，下一个AI竞争的关键战场，已经从“芯片算力”转移到了“数据搬运”效率。

我们总在谈论英伟达的GPU有多强，国产算力卡差距有多大，仿佛算得快就能赢。这个想法，从一开始就错了。真正的瓶颈，不是计算本身，而是喂给计算芯片的数据太慢、太笨。这就好比，你造了一台世界最顶级的榨汁机，但给它喂橙子的，是几个慢吞吞的老太太。榨汁机再强，也只能等。

这就是为什么，当我知道上海交大的刘方鑫教授要在AICon上分享“存算协同优化”时，我立刻意识到，这比听十场GPU架构演讲都重要。他讲的是最核心、最要命，却最被忽略的环节：如何让数据这锅“原料”，高效、精准地流到算力这个“灶台”上。

一、99%的算力，浪费在了“等待”上

我们太痴迷于算力峰值数字了。H100的FP16算力是多少TOPS，国产卡又追到了多少。但没人告诉你一个残酷的事实：在绝大多数AI训练和推理场景里，计算单元超过99%的时间，不是在计算，而是在等数据。

芯片内部的ALU（计算单元）嗷嗷待哺，但数据却卡在了路上。从哪里卡住？

第一站，内存墙。 数据从硬盘（HBM或DRAM）搬到芯片片上缓存，这个搬运速度，远慢于芯片的计算速度。计算一秒能干完的活，等数据可能得十秒。 第二站，存储墙。 更惨的是，当数据连内存都装不下，需要从更慢的SSD甚至网络存储里搬的时候，延迟更是灾难级的。这就不是老太太喂橙子了，是得从另一个省调橙子过来。 第三站，编排混乱。 就算路修宽了（带宽提升），但如果运输调度一团糟——该来的数据没来，不该来的堵在路上，算力照样闲置。

所以，只盯着“榨汁机”的转速升级，是典型的工程师思维。产品经理会问：我们能不能优化橙子的采摘、清洗、传送动线？甚至，我们能不能把榨汁机搬到橙子园旁边？

刘方鑫教授研究的“从数据表征到数据流编排”，本质上就是这场“橙子运输体系”的顶层设计革命。它问的是：数据用什么格式存、存在哪、按什么顺序送，才能让算力一刻不停地“饱腹”工作？

二、优化“搬运”，效果比升级“机器”更惊人

让我分享一个可能颠覆你认知的观点：优化数据搬运的收益，远高于提升芯片算力。

为什么？因为芯片算力的提升，遵循着艰难的物理定律和摩尔定律的放缓，每年能有个百分之几十的提升就了不起了。但数据搬运的优化，是在逻辑和算法层面动刀，提升空间常常是几倍、甚至数量级的。

举个例子。训练大模型时，海量数据需要反复读取。传统方法就是一条流水线：读数据→计算→写结果。但如果我能在数据表征时动点手脚呢？

比如，我知道接下来10次计算，有8次都要用到某个共同的中间结果。那我是不是可以提前把这个结果，用一种更容易被快速读取的格式，放在离计算单元最近的地方？甚至，我能不能预测计算单元接下来“想吃什么”，提前把“菜”备好？

这就是“数据表征”和“流编排”在做的事。它像一个极度聪明的“AI食堂管理员”，不仅知道今天做什么菜（数据），还知道每个厨师（计算核心）的口味和速度，更预测到了用餐高峰。它提前把食材处理好、分装好、按序摆在厨师手边，保证厨师伸手就能拿到，一刻不闲。

这种优化，可能让同一块GPU芯片，有效算力提升30%、50%甚至更多。这相当于，你什么都没换，免费给自己的AI机房做了一次“超频”。这笔账，任何一个企业CIO都会算。

三、产品思维的胜利：让复杂隐形，让效率显现

所有伟大的技术，最终都要回归产品思维。而产品思维的核心是：把复杂留给系统，把简单留给用户。

今天的AI基础设施，太“工程师化”了。用户（AI研发团队）被迫要懂很多硬件知识：内存带宽、NVLink拓扑、存储IOPS……他们本应只关心模型和算法。

存算协同优化的高级境界，正是让这种复杂隐形。未来的AI算力平台，不应该让用户纠结“我的数据该怎么放”。系统应该自动地、智能地完成这一切。用户只需要说：“我要训练一个千亿参数的大模型，这是数据。” 底层系统就应该像自动驾驶一样，规划出最优的数据流路径。

刘方鑫教授的研究，正是在为这个“自动驾驶”的AI算力底层编写核心算法。从数据怎么存（表征），到数据怎么走（编排），再到存和算怎么配合（协同），这是一套完整的、系统级的解决方案。

我认为，这恰恰是中国AI基础设施领域实现弯道超车的一个关键机会点。在绝对芯片性能上追赶需要时间，但在系统级优化、软硬件协同上，我们完全有可能做出更聪明、更高效的设计。因为优化算法和软件，是我们的强项。

四、商业启示：下一波独角兽，藏在“效率”里

最后，谈谈商业判断。

当所有人都涌向“造芯”（算力制造）这条拥挤的赛道时，我判断，“用好芯”（算力效率）将催生下一批百亿美金级别的公司。

理由很简单：算力越来越贵，越来越稀缺。无论是买英伟达的卡，还是用云上昂贵的算力实例，企业的成本压力巨大。谁能用一套软件或系统方案，帮企业把现有算力的有效利用率提升30%，谁就是在直接为客户节省真金白银。这种价值，客户买单会非常痛快。

这不仅仅是做“优化工具”的生意。它可能催生新的算力供给模式。比如，一个通过极致存算协同优化，能让老旧GPU集群发挥出接近新集群性能的“算力翻新”服务。或者，一个能智能调度跨地域、跨厂商异构算力的“算力效率云”。

它的核心壁垒，不是硬件，而是深度的系统软件know-how和算法。这正是刘方鑫教授这类学者专注的领域，也是很多从大厂出来的顶尖架构师可以大展拳脚的舞台。

所以，如果你是一位AI创业者，或者正在关注AI基础设施投资，别再只盯着芯片了。看看数据的“流淌之路”，看看那些让算力不再饥饿的“后勤大师”。这里面的机会，可能比想象中更大。

回到开头我的断言：AI的决胜点，从来不是单纯的算力制造，而是将算力转化为有效智能的“效率”。而效率的提升，始于对“数据搬运”这一最朴素环节的深刻理解和重新设计。

这，才是AI算力战争下半场的真正序幕。

本文由写作鹅创作