
微软被指为OpenAI建侵权超算,AI基础设施的另一个致命瓶颈也在暴露
今天NYT连发了两篇和AI基础设施相关的重磅报道,一条比一条劲爆。
第一条:NYT指责微软为OpenAI构建了一台涉嫌侵权的新款超级计算机。这台超级计算机专门用来训练和运行OpenAI的下一代大模型,但NYT得到的消息显示,这台超算在设计和构建过程中可能侵犯了多项专利和技术权益。具体涉及哪些专利,NYT没有完全披露,但提到了一些关键存储技术和芯片互联技术的争议。
说实话,微软和OpenAI的关系一直很微妙。微软已经向OpenAI投入了超过130亿美元,这笔钱很大一部分被用来建设大规模算力基础设施。从最早的Azure集群到专门定制的AI超算,微软一直在帮OpenAI解决"算力饥渴"的问题。但现在问题来了:当算力的建设速度跟不上模型能力膨胀的速度时,就可能在技术上走一些"捷径",从而导致侵权风险。
NYT指出,这台被指控侵权的超级计算机采用了多项未获得完整授权的技术。其中争议最大的是一种高带宽内存互联方案——这种方案可以大幅提升GPU之间的数据传输效率,但相关专利属于另一家半导体公司。如果侵权指控成立,微软和OpenAI可能面临巨额的专利赔偿,甚至可能需要重新设计整个超算架构。
但比这条新闻更值得深思的是NYT当天发的另一篇报道:一项小众技术如何成为AI的瓶颈。
这篇报道讲的是一项大多数人没听说过、但正在卡住整个AI行业脖子的技术——GPU互联带宽。简单来说,大模型不是在一张GPU上训练出来的,而是成百上千张GPU同时工作。这些GPU之间需要频繁地交换数据和中间结果,而交换的速度直接决定了整个训练过程的效率。如果互联带宽不够,GPU就会陷入"等数据"的状态,大量算力被白白浪费。
具体数据是这样的:当前最先进的AI超算集群中,GPU的计算能力在过去三年里提升了大约5倍,而GPU之间的互联带宽只提升了不到2倍。这种"剪刀差"正在变得越来越严重。当你把一千万张H100连在一起训练模型时,每张GPU可能有一半的时间都在等待数据传输。这意味着你花了100%的钱买了算力,但只用上了不到60%。
这项"小众技术"叫做NVLink、InfiniBand和以太网RoCEv2。听起来很技术,但本质问题很简单——一个团队要跑步比赛,但队员之间的通信只能用对讲机,指令传过去的时候人都快跑完了。AI训练也是同样的道理,计算单元之间的通信延迟正在成为整个系统的最大短板。
更麻烦的是,这个问题没有一个简单的解决方案。提高互联带宽需要在芯片封装、服务器架构、网络协议等多个层面同时做改进。英伟达的NVLink目前是市场上最快的GPU互联方案,但它的技术是封闭的,其他厂商没法用。行业里有一些开放标准在推进,但进展缓慢。
回到微软的侵权事件,这两个报道其实是同一枚硬币的两面。一方面,AI行业对算力基础设施的需求已经膨胀到了一个疯狂的程度——OpenAI的训练集群动辄投入数万张GPU,耗电量堪比一个小城市。另一方面,相关的技术供给——无论是互联带宽还是存储架构——都跟不上需求的增长。当需求和供给之间的鸿沟越来越大的时候,"走捷径"的冲动就会越来越强,侵权风险也随之上升。
从更宏观的角度看,这两个报道揭示了一个残酷的现实:AI行业正在从"算法竞争"进入"基础设施竞争"的阶段。过去两年,大家都觉得谁算法厉害谁就赢。但现在越来越多的人意识到,算法的潜力是被算力天花板限制的。谁拥有更强大的基础设施,谁就能训练出更强大的模型。而基础设施的构建不仅需要钱,还需要专利、技术和供应链的支撑。
对于创业公司的创始人来说,这个消息传递了一个明确的信号:如果你在做AI应用层的事情,你的竞争门槛取决于你获取算力的能力,而不仅仅是写代码的能力。算力基础设施正在成为AI行业最大的护城河和最大的瓶颈。
对于普通关注者来说,这两个报道也值得留意。AI的发展不是一条畅通无阻的高速公路,而是一条不断遇到新瓶颈的赛道。今天GPU互联带宽在卡脖子,明天可能又是存储带宽在卡脖子,后天可能是电力供应在卡脖子。每一个瓶颈在被解决的过程中,都会催生新的技术突破和新的商业机会。
再深入说说互联带宽这个技术瓶颈到底有多严重。以训练一个万亿参数的大模型为例,假设你使用1万张H100 GPU搭建集群,每张H100的峰值计算能力是2000 TFLOPS,理论集群总算力是每秒2000亿亿次浮点运算。听起来很强大对吧?但实际上,由于GPU之间的数据传输需要等待,整个集群的实际利用率通常在40%到50%之间。也就是说,你花了1万张GPU的钱,实际到手的算力只有4000到5000张。另外5000到6000张GPU的算力在等待数据的过程中被白浪费了,同时还在不断消耗电力和冷却资源。
NYT这篇报道特别点出了一种名为HBM(高带宽内存)的技术。HBM是当前AI芯片的核心组件之一,它负责在GPU和内存之间传输数据。HBM的带宽在过去五年里提升了大约2.5倍,但GPU的计算能力提升了超过6倍。这个差距导致了所谓的"内存墙"——计算核心算得越来越快,但数据供给跟不上,算力被饿死。解决"内存墙"需要从芯片封装、互联协议、通信架构等多个层面同时发力,不是简单多堆硬件就能解决的。
回到微软侵权超级计算机的新闻,这两件事其实指向了同一个底层问题:整个AI行业对算力的渴求已经超出了技术基础设施的供给能力。在这样的背景下,各方都在抢资源、抢技术、抢人才,法律的边界就容易被忽略。微软被指控侵权,本质上是因为他们急需要一个能跑更大模型的超算,而市场上的成熟方案要么不够快,要么已经被竞争对手占用了。在"不侵权就落后"的压力下,选择铤而走险也就可以理解了。
从产业影响来看,如果微软的侵权指控成立,后果可能非常严重。微软为OpenAI建设的那台超算价值超过50亿美元,如果因为侵权指控需要重新设计或更换关键组件,不仅会造成巨大的经济损失,还会严重延误OpenAI下一代模型的训练进度。考虑到OpenAI刚刚预览了GPT-5.6 Sol,下一代更强大的模型一定已经在训练中了,任何基础设施层面的中断都可能导致他们失去市场窗口。这对于正在和Anthropic、DeepSeek激烈竞争的OpenAI来说,是不能承受的风险。
对于整个AI基础设施供应链来说,这两篇报道也揭示了一个趋势:算力基础设施正在从"通用组件拼装"走向"定制化方案"。过去造超算就像搭积木——买英伟达的GPU、买InfiniBand交换机、买标准机柜,拼起来就行。但现在,为了提高那10%到20%的效率,每个大厂都在做定制化设计。微软定制了GPU互联方案,Google有TPU和自研交换网络,亚马逊有Trainium和Inferentia。当越来越多的玩家进入定制化赛道,专利纠纷和技术摩擦的概率就会成倍增加。
对于关注AI行业的人来说,这个消息传递了两个信号。第一,AI行业的竞争已经从算法层面全面延伸到了基础设施层面,算力本身的稀缺性和技术复杂性在快速提升。第二,基础设施层面的竞争比算法层面更"重"——需要更多的资金、更长的周期和更复杂的供应链管理。这意味着AI行业的准入门槛在进一步提高,小公司和后来者要想参与竞争,难度会越来越大。
从长远来看,互联带宽的瓶颈最终一定会被突破。英伟达的NVLink 6已经在规划中,业界也在推动UCIe等开放互联标准。但瓶颈的解决速度和AI模型对算力的需求增长速度之间,存在一个持续的"军备竞赛"。可能在未来的三到五年内,互联带宽始终是制约AI发展的最核心瓶颈之一。而对于参与到这场竞赛中的每一家公司来说,谁能更早找到突破瓶颈的方法,谁就能在下一阶段获得显著的竞争优势。
微软的侵权超级计算机最终会不会被起诉?互联带宽的瓶颈什么时候能被突破?这些问题的答案现在还看不清楚。但有一点是确定的:AI基础设施的竞争已经白热化到每一步都可能踩到法律和技术的地雷。这是通往下一代AI的必经之路,也是整个行业必须面对的成人礼。
【cover】一张科技感图片,展现一个超大型数据中心内部的场景,无数发光的数据线缆交织在一起,中央有一台发光的超级计算机轮廓,色调以蓝色和暗红色为主,体现高科技感和潜在的压迫感
【more】推荐阅读:Intel芯片业务复苏的三大战略转折 / 从GPU互联到电力供给,AI算力瓶颈的全面体检 / DeepSeek DSpark如何从算法角度缓解算力压力
───
关注「蓝色Jerry」· 每天资讯早知道
觉得有用?点个 在看 分享给朋友
夜雨聆风