微软被指为OpenAI建侵权超算,AI基础设施的另一个致命瓶颈也在暴露

微软被指为OpenAI建侵权超算，AI基础设施的另一个致命瓶颈也在暴露

今天NYT连发了两篇和AI基础设施相关的重磅报道，一条比一条劲爆。

第一条：NYT指责微软为OpenAI构建了一台涉嫌侵权的新款超级计算机。这台超级计算机专门用来训练和运行OpenAI的下一代大模型，但NYT得到的消息显示，这台超算在设计和构建过程中可能侵犯了多项专利和技术权益。具体涉及哪些专利，NYT没有完全披露，但提到了一些关键存储技术和芯片互联技术的争议。

说实话，微软和OpenAI的关系一直很微妙。微软已经向OpenAI投入了超过130亿美元，这笔钱很大一部分被用来建设大规模算力基础设施。从最早的Azure集群到专门定制的AI超算，微软一直在帮OpenAI解决"算力饥渴"的问题。但现在问题来了：当算力的建设速度跟不上模型能力膨胀的速度时，就可能在技术上走一些"捷径"，从而导致侵权风险。

NYT指出，这台被指控侵权的超级计算机采用了多项未获得完整授权的技术。其中争议最大的是一种高带宽内存互联方案——这种方案可以大幅提升GPU之间的数据传输效率，但相关专利属于另一家半导体公司。如果侵权指控成立，微软和OpenAI可能面临巨额的专利赔偿，甚至可能需要重新设计整个超算架构。

但比这条新闻更值得深思的是NYT当天发的另一篇报道：一项小众技术如何成为AI的瓶颈。

这篇报道讲的是一项大多数人没听说过、但正在卡住整个AI行业脖子的技术——GPU互联带宽。简单来说，大模型不是在一张GPU上训练出来的，而是成百上千张GPU同时工作。这些GPU之间需要频繁地交换数据和中间结果，而交换的速度直接决定了整个训练过程的效率。如果互联带宽不够，GPU就会陷入"等数据"的状态，大量算力被白白浪费。

具体数据是这样的：当前最先进的AI超算集群中，GPU的计算能力在过去三年里提升了大约5倍，而GPU之间的互联带宽只提升了不到2倍。这种"剪刀差"正在变得越来越严重。当你把一千万张H100连在一起训练模型时，每张GPU可能有一半的时间都在等待数据传输。这意味着你花了100%的钱买了算力，但只用上了不到60%。

这项"小众技术"叫做NVLink、InfiniBand和以太网RoCEv2。听起来很技术，但本质问题很简单——一个团队要跑步比赛，但队员之间的通信只能用对讲机，指令传过去的时候人都快跑完了。AI训练也是同样的道理，计算单元之间的通信延迟正在成为整个系统的最大短板。

更麻烦的是，这个问题没有一个简单的解决方案。提高互联带宽需要在芯片封装、服务器架构、网络协议等多个层面同时做改进。英伟达的NVLink目前是市场上最快的GPU互联方案，但它的技术是封闭的，其他厂商没法用。行业里有一些开放标准在推进，但进展缓慢。

回到微软的侵权事件，这两个报道其实是同一枚硬币的两面。一方面，AI行业对算力基础设施的需求已经膨胀到了一个疯狂的程度——OpenAI的训练集群动辄投入数万张GPU，耗电量堪比一个小城市。另一方面，相关的技术供给——无论是互联带宽还是存储架构——都跟不上需求的增长。当需求和供给之间的鸿沟越来越大的时候，"走捷径"的冲动就会越来越强，侵权风险也随之上升。

从更宏观的角度看，这两个报道揭示了一个残酷的现实：AI行业正在从"算法竞争"进入"基础设施竞争"的阶段。过去两年，大家都觉得谁算法厉害谁就赢。但现在越来越多的人意识到，算法的潜力是被算力天花板限制的。谁拥有更强大的基础设施，谁就能训练出更强大的模型。而基础设施的构建不仅需要钱，还需要专利、技术和供应链的支撑。

对于创业公司的创始人来说，这个消息传递了一个明确的信号：如果你在做AI应用层的事情，你的竞争门槛取决于你获取算力的能力，而不仅仅是写代码的能力。算力基础设施正在成为AI行业最大的护城河和最大的瓶颈。

对于普通关注者来说，这两个报道也值得留意。AI的发展不是一条畅通无阻的高速公路，而是一条不断遇到新瓶颈的赛道。今天GPU互联带宽在卡脖子，明天可能又是存储带宽在卡脖子，后天可能是电力供应在卡脖子。每一个瓶颈在被解决的过程中，都会催生新的技术突破和新的商业机会。

再深入说说互联带宽这个技术瓶颈到底有多严重。以训练一个万亿参数的大模型为例，假设你使用1万张H100 GPU搭建集群，每张H100的峰值计算能力是2000 TFLOPS，理论集群总算力是每秒2000亿亿次浮点运算。听起来很强大对吧？但实际上，由于GPU之间的数据传输需要等待，整个集群的实际利用率通常在40%到50%之间。也就是说，你花了1万张GPU的钱，实际到手的算力只有4000到5000张。另外5000到6000张GPU的算力在等待数据的过程中被白浪费了，同时还在不断消耗电力和冷却资源。

NYT这篇报道特别点出了一种名为HBM（高带宽内存）的技术。HBM是当前AI芯片的核心组件之一，它负责在GPU和内存之间传输数据。HBM的带宽在过去五年里提升了大约2.5倍，但GPU的计算能力提升了超过6倍。这个差距导致了所谓的"内存墙"——计算核心算得越来越快，但数据供给跟不上，算力被饿死。解决"内存墙"需要从芯片封装、互联协议、通信架构等多个层面同时发力，不是简单多堆硬件就能解决的。

回到微软侵权超级计算机的新闻，这两件事其实指向了同一个底层问题：整个AI行业对算力的渴求已经超出了技术基础设施的供给能力。在这样的背景下，各方都在抢资源、抢技术、抢人才，法律的边界就容易被忽略。微软被指控侵权，本质上是因为他们急需要一个能跑更大模型的超算，而市场上的成熟方案要么不够快，要么已经被竞争对手占用了。在"不侵权就落后"的压力下，选择铤而走险也就可以理解了。

从产业影响来看，如果微软的侵权指控成立，后果可能非常严重。微软为OpenAI建设的那台超算价值超过50亿美元，如果因为侵权指控需要重新设计或更换关键组件，不仅会造成巨大的经济损失，还会严重延误OpenAI下一代模型的训练进度。考虑到OpenAI刚刚预览了GPT-5.6 Sol，下一代更强大的模型一定已经在训练中了，任何基础设施层面的中断都可能导致他们失去市场窗口。这对于正在和Anthropic、DeepSeek激烈竞争的OpenAI来说，是不能承受的风险。

对于整个AI基础设施供应链来说，这两篇报道也揭示了一个趋势：算力基础设施正在从"通用组件拼装"走向"定制化方案"。过去造超算就像搭积木——买英伟达的GPU、买InfiniBand交换机、买标准机柜，拼起来就行。但现在，为了提高那10%到20%的效率，每个大厂都在做定制化设计。微软定制了GPU互联方案，Google有TPU和自研交换网络，亚马逊有Trainium和Inferentia。当越来越多的玩家进入定制化赛道，专利纠纷和技术摩擦的概率就会成倍增加。

对于关注AI行业的人来说，这个消息传递了两个信号。第一，AI行业的竞争已经从算法层面全面延伸到了基础设施层面，算力本身的稀缺性和技术复杂性在快速提升。第二，基础设施层面的竞争比算法层面更"重"——需要更多的资金、更长的周期和更复杂的供应链管理。这意味着AI行业的准入门槛在进一步提高，小公司和后来者要想参与竞争，难度会越来越大。

从长远来看，互联带宽的瓶颈最终一定会被突破。英伟达的NVLink 6已经在规划中，业界也在推动UCIe等开放互联标准。但瓶颈的解决速度和AI模型对算力的需求增长速度之间，存在一个持续的"军备竞赛"。可能在未来的三到五年内，互联带宽始终是制约AI发展的最核心瓶颈之一。而对于参与到这场竞赛中的每一家公司来说，谁能更早找到突破瓶颈的方法，谁就能在下一阶段获得显著的竞争优势。

微软的侵权超级计算机最终会不会被起诉？互联带宽的瓶颈什么时候能被突破？这些问题的答案现在还看不清楚。但有一点是确定的：AI基础设施的竞争已经白热化到每一步都可能踩到法律和技术的地雷。这是通往下一代AI的必经之路，也是整个行业必须面对的成人礼。

【cover】一张科技感图片，展现一个超大型数据中心内部的场景，无数发光的数据线缆交织在一起，中央有一台发光的超级计算机轮廓，色调以蓝色和暗红色为主，体现高科技感和潜在的压迫感

【more】推荐阅读：Intel芯片业务复苏的三大战略转折 / 从GPU互联到电力供给，AI算力瓶颈的全面体检 / DeepSeek DSpark如何从算法角度缓解算力压力

───

关注「蓝色Jerry」· 每天资讯早知道

觉得有用？点个在看分享给朋友