乐于分享
好东西不私藏

AI芯片战争2.0:英伟达份额下滑,中国厂商逆袭,Kimi估值200亿的背后

AI芯片战争2.0:英伟达份额下滑,中国厂商逆袭,Kimi估值200亿的背后

国产AI芯片正在打破垄断格局,这一次不是PPT造芯,而是真正的商用落地。

当英伟达Blackwell架构的B200芯片还在实验室里咆哮着跑分时,一个更值得关注的信号正在中国AI产业深处悄然蔓延:国产算力芯片的实际部署量,正在以超出所有人预期的速度攀升。

这不是危言耸听的市场传言,而是来自多个一线云计算厂商的真实采购数据。

英伟达中国份额失守:从80%到「其他」

掰开数据看真相。

2023年年中,英伟达在中国AI训练芯片市场的份额一度超过80%。彼时,无论是阿里云、腾讯云还是华为云,GPU采购清单里清一色是H100、H800。国产芯片?那只是备选方案里用来凑数的「政治正确」选项。

仅仅一年半之后,这个数字已经发生了结构性变化。

综合多家云厂商内部人士的交叉验证,2025年第一季度,国产AI芯片在新增算力采购中的占比已经突破35%,且增速还在加快。这个数字放在两年前,几乎没有人敢写进任何一份严肃的行业报告里。

英伟达的H800/H100在中国市场的实际供应量正在收缩。出口管制政策的影响已经从纸面传导到了真实交货周期。过去那种「下单三个月交货」的确定性正在消失,取而代之的是越来越长的等待名单。

而那些曾经被嘲讽为「PPT造芯」的国产选手——华为昇腾、寒武纪MLU、燧原科技、壁仞科技——正在用真实的机器和真实的客户,书写一个不同的故事。

Kimi200亿估值:一个被低估的信号

月之暗面(Moonshot AI)的Kimi大模型在最新一轮融资中估值突破200亿人民币。这个数字本身已经足够震撼,但如果我们把它放在整个AI产业变革的坐标系里,它的意义远不止于一个独角兽的诞生。

Kimi代表的是一种新的AI公司生存范式:不依赖英伟达算力、不依赖硅谷融资、不依赖OpenAI的技术路线。

月之暗面从第一天起就在探索国产算力的适配优化。其技术团队在多个公开分享中提到,Kimi的长上下文窗口能力(支持200万字无损上下文)很大程度上是在昇腾芯片上迭代出来的。这在两年前几乎是不可想象的技术路径。

200亿估值背后,是资本市场对「中国AI第二极」的提前下注。这个极点的核心特征是:不完全依附于英伟达生态,在有限算力约束下做出世界级技术突破。

这才是让英伟达真正感到不安的东西。

算力铁幕下的三条路线

中国AI芯片产业正在形成三条清晰的路线:

第一条路线:华为昇腾的生态突围。

昇腾910B的实际性能已经接近A100,这在两年前还被认为是过于乐观的预测。在华为全栈自研的战略下,从芯片到框架(MindSpore)到开发工具(CANN)的完整生态正在显现威力。更重要的是,华为云、阿里云、百度云三大厂商都在加速昇腾的适配和部署。生态的闭环一旦形成,迁移成本会急剧上升。

第二条路线:燧原、壁仞的专用场景深耕。

通用大模型训练芯片赛道门槛极高,但在大模型推理侧、边缘推理侧、特定行业推理侧,专用芯片的机会窗口正在打开。燧原科技的邃思芯片在多个互联网客户的推荐系统、广告系统里已经实现了万卡级别的部署。这些场景不追求极致算力密度,追求的是「够用+便宜+稳定」,恰恰是国产芯片最擅长的竞争区间。

第三条路线:新兴创业公司的架构革命。

这可能是最值得关注的一条线索。沐曦集成电路、摩尔线程等新势力并没有选择复制英伟达的路线,而是从底层架构上寻找差异化突破。沐曦的MXN系列在某些特定AI工作负载上已经展现出功耗优势和成本优势。摩尔线程的夸父(KUAFU)芯片虽然起步较晚,但其全功能GPU的定位在CUDA生态兼容上走出了独特的中间路线。

三条路线并进,构成了中国AI芯片产业的全景图。过去那种「国产芯片不行」的刻板印象,正在被真实的市场数据一点点推翻。

全球芯片暴涨:英伟达的焦虑与机会

把视线从中国移开,看向全球AI芯片市场,会看到一个更复杂的局面。

2024年下半年开始,全球AI算力需求出现了新一轮爆发式增长。大模型的参数规模从千亿级向万亿级跃迁,多模态大模型成为新的技术制高点,这一系列变化直接拉动了对高端AI芯片的需求。英伟达数据中心业务的收入增速再次超出华尔街预期。

但这种「全面利好英伟达」的叙事里,藏着一个被忽视的结构性风险:供应瓶颈。

英伟达的产能扩张速度并没有跟上需求增速。H100的交货周期在2023年底一度高达9个月。B200的量产更是被CoWoS封装产能卡住了脖子。这种供应端的紧平衡,恰恰给中国国产芯片留出了宝贵的商用验证窗口期。

历史经验表明,任何芯片技术从「实验室可用」到「商业可行」,最难的往往不是技术突破,而是:有没有客户愿意用,有没有真实场景可以迭代。

交货周期长达9个月的英伟达,意外地给国产芯片送上了这份最珍贵的礼物——真实客户、真实场景、真实反馈。

大模型竞争进入「后训练」时代,芯片格局重写

大模型的技术演进正在改变对芯片的需求结构。

GPT-4之后,业界逐渐形成了一个共识:模型能力提升的关键已经从「更大的预训练」转向「更精细的微调和对齐」。RLHF(基于人类反馈的强化学习)、模型压缩、知识蒸馏、推理优化——这些「后训练」技术正在成为新的主战场。

后训练阶段的工作负载特征与预训练截然不同:批量更小、延迟敏感度更高、对内存带宽和互联带宽的要求更为突出。这些特征恰好是很多国产芯片的设计初衷。

举个例子:寒武纪MLU370系列在ResNet、BERT等经典模型的推理场景下,单位算力成本已经显著优于同级别英伟达产品。虽然在大模型预训练场景仍有差距,但在推理侧的竞争力正在快速提升。

随着大模型从「一锤子预训练」走向「持续迭代更新」,推理芯片的市场规模增速将持续高于训练芯片。这个结构性变化,对国产芯片厂商是一个巨大的长期利好。

挑战依然严峻:三个没有解决的难题

唱多国产芯片不代表要回避问题。当前阶段,至少有三个难题还没有被很好地解决:

难题一:CUDA生态壁垒。

全球主流AI框架和模型厂商的代码基底里,遍布着英伟达CUDA的深度优化。迁移到国产芯片不是简单的算子重写,而是需要重新优化每一个计算路径、每一个内存访问模式。这项工作量巨大,且需要整个社区的协同。目前真正完成全面迁移的模型和框架还相当有限。

难题二:先进制程的持续供货能力。

华为昇腾910B采用的是台积电7nm工艺。在美国出口管制持续收紧的背景下,先进制程芯片的代工问题始终是悬在国产芯片头上的一把剑。供应链的韧性比产品性能本身更决定长期走向。

难题三:软件栈成熟度。

芯片只是底座,真正决定用户体验的是软件工具链的完善程度。英伟达花了十几年时间构建的CUDA生态、TensorRT推理引擎、cuDNN加速库,在软件层面形成了极高的转换成本。国产芯片的软件栈在易用性、文档完善度、开发者社区规模上,与英伟达的差距仍然是数量级的。

这三个难题不会在短期内消失。承认它们存在,才是真正理解国产AI芯片进程的前提。

一个值得关注的时间节点:2025年底

综合行业调研机构的预测和多家芯片厂商的内部路线图,2025年底可能是一个关键节点:

华为昇腾910C(如果如预期推出)将把国产AI芯片的性能上限再推高一个档次

燧原科技第二代推理芯片预计将在互联网大厂实现更大规模的部署

国内大模型厂商对国产算力的适配优化将在2025年底前基本完成第一轮迁移

届时,我们可能真正看到一个不一样的AI算力格局:英伟达仍然占据最高端的训练市场,但不再是唯一选项。中国AI产业第一次拥有了真正意义上的算力备选方案。

这个格局的改变,不会在一夜之间发生。但它的方向,已经没有悬念了。


你怎么看待国产AI芯片的崛起?在实际工作中是否已经接触过昇腾或其他国产AI芯片?欢迎在评论区分享你的观察和体验。