摘要:最近跟几个做通信和AI的朋友聊到AI-RAN。本文拆解三层含义、五大厂商策略,提出核心判断——AI Agent时代的算力主战场在集中推理池,边缘推理的真实驱动力是安全合规而非时延,公众市场未来几年看不到必须把推理下沉到基站的硬需求。
最近跟几个做通信和 AI 的朋友聊天,他们都不约而同提到了一个词——AI-RAN。说 NVIDIA 投了诺基亚 10 亿美元,要把全球几百万个基站变成"分布式 AI 工厂"。说以后你的手机 AI 助手不用连云端了,基站就能帮你跑。
听起来特别美好。但我这人有个毛病,听到太美好的故事就忍不住想拆开看看。
于是花了点时间翻了翻白皮书、翻了翻技术标准,也看了看各家厂商到底在做什么。今天把研究结果整理出来,尽量用通俗的语言说清楚这件事。
下面我们一步步拆。
一、AI-RAN 到底是什么?三层意思差别巨大
很多人聊 AI-RAN 的时候其实是各说各话。因为它根本不是"一个技术",而是三个层次的事。先把这个搞清楚,后面才不会被带偏。
第一层,让 AI 帮网络自己跑得更好。
举个例子。你手机信号好不好、上网快不快,很大程度上取决于基站"瞄准"你的那束无线电波打得准不准。以前是靠工程师写固定规则,现在用 AI 来实时调整,覆盖更好、更省电。
这一层大家都没争议。标准已经定了,中国移动已经改造了将近 50 万个基站,330 多个城市都用上了。省电、提效,ROI 算得清。这是唯一已经在赚回投资的部分。
第二层,在基站上跑别人的 AI 来赚钱。
这是争议最大的地方。逻辑是这样的:运营商在基站里装一块 GPU,大部分时间处理通信信号用不完,空闲时间就把算力租出去,给旁边的企业跑 AI 推理。软银在日本演示了这个场景——基站 GPU 不忙的时候,跑一些后台的 AI 批处理任务。
第三层,同一块 GPU 同时干通信和 AI 两件事。
这是 NVIDIA 和诺基亚画的终极大饼。但通信信号处理是要"实时"的——毫秒级别的延迟都不能有。而 AI 推理是"尽力而为"——慢一点也能接受。两种完全不同的工作模式抢占同一块 GPU,这在技术上太难了,今天还做不到。
记住这三个层次,后面看厂商宣传的时候你就知道他们在讲哪个了。
二、各家都在打什么算盘
NVIDIA + 诺基亚:故事讲得最大,但有一个细节值得细品。
他们的方案是:在基站里装 NVIDIA 的 GPU(一个叫 Aerial RAN Computer 的东西,功耗大概 300W),通信处理之余,通过软银开发的一个调度系统,把空闲算力卖出去。
这里有个细节特别有意思:NVIDIA 投了诺基亚 10 亿美元。
你想想,如果这个商业模式真的成立——运营商抢着买 GPU 装基站——NVIDIA 用得着掏 10 亿美元投资诺基亚吗?运营商会因为业务需要自己找上门来买。
这 10 亿的本质是"我要创造这个市场,而不是市场已经存在"。先砸钱让设备商把故事讲出去、把样板做出来,然后期望需求能跟上来。这个逻辑能不能跑通,现在还不知道。
爱立信:不跟,我就用我自己的芯片。
爱立信的态度很明确:不需要在基站里塞一块大 GPU。它在自己的芯片里内置了小型 AI 加速器,够用就行。多一块 GPU 就多一份功耗、多一份成本、多一份故障风险。对利润已经越来越薄的运营商来说,这个账不好算。
华为:我不站队,我定义标准。
华为的策略要高一层——它不去争用 GPU 还是用专用芯片,而是在 3GPP 标准层面推"AI 内生"这个概念。意思是 AI 能力应该是网络自己的事,至于底下用什么硬件,你不需要操心。这个策略的好处是,不管将来硬件怎么选,华为都在牌桌上。
中国运营商:嘴上说重要,身体很诚实。
三大运营商在公开场合都说 AI-RAN 很重要。但你去看他们的财报,2026 年合计快 2800 亿的投资里,算力占比确实超过了 30%——但这些钱是去建集中式的大型智算中心的,不是去给每个基站装 GPU 的。
钱投在哪里,比说什么更有说服力。
三、最核心的问题:到底谁需要在基站上跑 AI?
这是我觉得 AI-RAN 这个故事里最需要被追问的一个问题,也是在跟朋友聊的时候他们最容易忽略的。
AI Agent 现在很火,推理算力需求确实在暴涨。但你想过没有,这些需求是什么形态的?大语言模型、AI 编程助手、AI 数据分析——它们的推理计算,在哪里跑?
在云端的万卡集群上。用户发一个请求,通过光纤传过去,几十毫秒后结果回来了。对于对话、写代码、生图片这些场景,几十毫秒的延迟完全感觉不到。
万卡集群有个巨大的优势:GPU 利用率能做到 70% 以上,因为几百上千个用户的请求可以混在一起调度,谁闲了谁上。
而一座基站覆盖范围就几百米,同一时刻能有几个推理任务需要处理?大概率是零。GPU 一天大部分时间在闲置,这个成本谁来扛?
那边缘推理是不是就完全没需求了?也不是。有,但驱动力不是你想象的那样。
真实的需求来自"数据不能出门"。
矿山的地质数据、核电厂的运行参数、工厂的核心工艺——这些数据的老板不在乎推理快 20 毫秒还是慢 20 毫秒。他们在乎的是数据绝对不能传到园区外面去。这是合规要求,不是性能要求。
所以"5G 专网 + 本地 AI 推理"这个组合在园区场景是成立的。但关键是——这个本地推理服务器,有必要非得塞进基站机箱里吗?你把它放在园区机房里,通过专网连接,效果一模一样,还不用考虑室外高温灰尘对 GPU 的伤害。
再看消费者这边。你今天用的 ChatGPT、AI 绘图、AI 视频生成——你能感觉到几十毫秒的延迟吗?城域网延迟 5 到 15 毫秒,加上数据中心处理,总共也就 20 到 50 毫秒。你完全不觉得慢。
有人会说,云游戏需要极低延迟啊。没错,但这个市场这么多年了,规模怎么样大家心里有数。拿一个还没做大的市场去论证几千亿美元的新基础设施投资,这个账我不敢算。
结论:消费者这边,未来三到五年,看不到必须把 AI 推理下沉到基站的硬需求。
四、就算需求真的来了,技术上也还有五道坎
退一步说,就算某一天突然出现了一个杀手级应用,真的需要基站级推理,技术上也还有一堆问题没解决。
第一,GPU 闲着也是闲着?没那么简单。 一座基站覆盖范围内,同一时刻可能一个推理请求都没有。GPU 大部分时间在空转。有人说"可以把隔壁基站的请求调度过来"——但请求都已经跨基站传输了,为什么不直接在汇聚点统一处理?加一层分布式调度,反而更复杂。
第二,通信和 AI 谁能插队? 这是最根本的矛盾。通信信号处理是"我不能等"的任务,毫秒级必须完成。AI 推理是"我可以排队"的任务。当这两件事抢 GPU 的时候,优先级怎么定?让通信等一下,信号质量就崩了。让 AI 排队,用户体验就崩了。NVIDIA 的 GPU 硬实时调度能力今天还做不到。
第三,多个基站之间没法协同算大模型。 大语言模型跑推理可能需要好几块 GPU 一起工作。数据中心里 GPU 之间互联的速度是几百 GB 每秒。基站之间的互联是 10 到 25GB 每秒的光纤,差了几十倍,延迟还高。在这上面做多卡协同,通信开销会吃掉所有计算收益。
第四,你走过去的时候,谁来接? 手机用户是会动的。你从一个基站走到另一个基站,如果正在跑一个 AI 推理会话——上下文、对话历史、计算中间状态——这些东西怎么在毫秒之间迁移过去?今天做不到。
第五,GPU 不是设计给基站机箱用的。 数据中心恒温恒湿,基站机箱夏天太阳直晒能到六七十度,灰尘、供电波动都是日常。GPU 在这种环境下的可靠性,还没有经过大规模验证。运营商最怕的不是装一次,而是装完以后无穷无尽的维修。
五、什么时候能看到真的?分三步走
基于上面的分析,我觉得 AI-RAN 的节奏应该是这样的:
现在到 2026 年底:只做第一层,让 AI 优化网络。 ROI 清楚、标准成熟、产品现成。波束管理、网络节能、负载均衡——中国移动已经在做了。不需要任何"新故事"就能说服财务。
2026 到 2028 年:在专网场景试点边缘 AI。 矿山、工厂、港口的本地推理需求是真实的——驱动力是安全合规,不是时延。但这个阶段验证的也不是"公网基站 GPU 共享",而是 Private 5G + 边缘计算的商业可行性。
2028 年以后:看需求会不会出现。 需要三个条件同时满足——时延敏感的杀手级应用出现、GPU 实时虚拟化技术成熟、跨基站编排系统跑通。大概率会伴随 6G 的 AI 原生架构一起落地,时间点在 2030 年前后。
诺基亚说的是 2027 年商用。但 3GPP 的时间表是 2029 年 6G 版本才冻结。差这三年,中间的不确定性太多了。
说三个判断
第一,AI Agent 爆发的算力红利,在集中式智算中心,不在分布式基站。 万卡集群的池化效率,单站 GPU 永远追不上。AI 应用越火,集中式的优势越明显。
第二,边缘推理的第一驱动力是安全合规,当前极少是时延。 "数据不出园区"的付费逻辑是成立的,但不需要把 GPU 塞进基站来满足。
第三,分步走比一步到位更务实。 眼前先把 AI 优化网络这件事做好,确定性最高、回报最快。远期的事,跟踪而不超前投资。
对运营商的兄弟们来说,有限的算力预算,先砸在集中式智算中心上,那里有确定的需求、可预期的回报。AI-RAN 保持关注、保持试点,但别急着大规模铺。
故事再好,最后还是要看需求端怎么投票。
信息来源:AI-RAN Alliance 官方资料、3GPP Rel-18/19/20 技术规范、MWC 2026 各厂商公开资料、清华AIR×亚信科技《AI-RAN商业展望白皮书》、SKT×NTT Docomo 白皮书(2026.03)。
本文仅代表作者个人观点。
夜雨聆风