AI芯片战争2.0:英伟达份额下滑,中国厂商逆袭,Kimi估值200亿的背后-夜雨聆风

AI芯片战争2.0:英伟达份额下滑,中国厂商逆袭,Kimi估值200亿的背后

国产AI芯片正在打破垄断格局，这一次不是PPT造芯，而是真正的商用落地。

当英伟达Blackwell架构的B200芯片还在实验室里咆哮着跑分时，一个更值得关注的信号正在中国AI产业深处悄然蔓延：国产算力芯片的实际部署量，正在以超出所有人预期的速度攀升。

这不是危言耸听的市场传言，而是来自多个一线云计算厂商的真实采购数据。

英伟达中国份额失守：从80%到「其他」

掰开数据看真相。

2023年年中，英伟达在中国AI训练芯片市场的份额一度超过80%。彼时，无论是阿里云、腾讯云还是华为云，GPU采购清单里清一色是H100、H800。国产芯片？那只是备选方案里用来凑数的「政治正确」选项。

仅仅一年半之后，这个数字已经发生了结构性变化。

综合多家云厂商内部人士的交叉验证，2025年第一季度，国产AI芯片在新增算力采购中的占比已经突破35%，且增速还在加快。这个数字放在两年前，几乎没有人敢写进任何一份严肃的行业报告里。

英伟达的H800/H100在中国市场的实际供应量正在收缩。出口管制政策的影响已经从纸面传导到了真实交货周期。过去那种「下单三个月交货」的确定性正在消失，取而代之的是越来越长的等待名单。

而那些曾经被嘲讽为「PPT造芯」的国产选手——华为昇腾、寒武纪MLU、燧原科技、壁仞科技——正在用真实的机器和真实的客户，书写一个不同的故事。

Kimi200亿估值：一个被低估的信号

月之暗面（Moonshot AI）的Kimi大模型在最新一轮融资中估值突破200亿人民币。这个数字本身已经足够震撼，但如果我们把它放在整个AI产业变革的坐标系里，它的意义远不止于一个独角兽的诞生。

Kimi代表的是一种新的AI公司生存范式：不依赖英伟达算力、不依赖硅谷融资、不依赖OpenAI的技术路线。

月之暗面从第一天起就在探索国产算力的适配优化。其技术团队在多个公开分享中提到，Kimi的长上下文窗口能力（支持200万字无损上下文）很大程度上是在昇腾芯片上迭代出来的。这在两年前几乎是不可想象的技术路径。

200亿估值背后，是资本市场对「中国AI第二极」的提前下注。这个极点的核心特征是：不完全依附于英伟达生态，在有限算力约束下做出世界级技术突破。

这才是让英伟达真正感到不安的东西。

算力铁幕下的三条路线

中国AI芯片产业正在形成三条清晰的路线：

第一条路线：华为昇腾的生态突围。

昇腾910B的实际性能已经接近A100，这在两年前还被认为是过于乐观的预测。在华为全栈自研的战略下，从芯片到框架（MindSpore）到开发工具（CANN）的完整生态正在显现威力。更重要的是，华为云、阿里云、百度云三大厂商都在加速昇腾的适配和部署。生态的闭环一旦形成，迁移成本会急剧上升。

第二条路线：燧原、壁仞的专用场景深耕。

通用大模型训练芯片赛道门槛极高，但在大模型推理侧、边缘推理侧、特定行业推理侧，专用芯片的机会窗口正在打开。燧原科技的邃思芯片在多个互联网客户的推荐系统、广告系统里已经实现了万卡级别的部署。这些场景不追求极致算力密度，追求的是「够用+便宜+稳定」，恰恰是国产芯片最擅长的竞争区间。

第三条路线：新兴创业公司的架构革命。

这可能是最值得关注的一条线索。沐曦集成电路、摩尔线程等新势力并没有选择复制英伟达的路线，而是从底层架构上寻找差异化突破。沐曦的MXN系列在某些特定AI工作负载上已经展现出功耗优势和成本优势。摩尔线程的夸父（KUAFU）芯片虽然起步较晚，但其全功能GPU的定位在CUDA生态兼容上走出了独特的中间路线。

三条路线并进，构成了中国AI芯片产业的全景图。过去那种「国产芯片不行」的刻板印象，正在被真实的市场数据一点点推翻。

全球芯片暴涨：英伟达的焦虑与机会

把视线从中国移开，看向全球AI芯片市场，会看到一个更复杂的局面。

2024年下半年开始，全球AI算力需求出现了新一轮爆发式增长。大模型的参数规模从千亿级向万亿级跃迁，多模态大模型成为新的技术制高点，这一系列变化直接拉动了对高端AI芯片的需求。英伟达数据中心业务的收入增速再次超出华尔街预期。

但这种「全面利好英伟达」的叙事里，藏着一个被忽视的结构性风险：供应瓶颈。

英伟达的产能扩张速度并没有跟上需求增速。H100的交货周期在2023年底一度高达9个月。B200的量产更是被CoWoS封装产能卡住了脖子。这种供应端的紧平衡，恰恰给中国国产芯片留出了宝贵的商用验证窗口期。

历史经验表明，任何芯片技术从「实验室可用」到「商业可行」，最难的往往不是技术突破，而是：有没有客户愿意用，有没有真实场景可以迭代。

交货周期长达9个月的英伟达，意外地给国产芯片送上了这份最珍贵的礼物——真实客户、真实场景、真实反馈。

大模型竞争进入「后训练」时代，芯片格局重写

大模型的技术演进正在改变对芯片的需求结构。

GPT-4之后，业界逐渐形成了一个共识：模型能力提升的关键已经从「更大的预训练」转向「更精细的微调和对齐」。RLHF（基于人类反馈的强化学习）、模型压缩、知识蒸馏、推理优化——这些「后训练」技术正在成为新的主战场。

后训练阶段的工作负载特征与预训练截然不同：批量更小、延迟敏感度更高、对内存带宽和互联带宽的要求更为突出。这些特征恰好是很多国产芯片的设计初衷。

举个例子：寒武纪MLU370系列在ResNet、BERT等经典模型的推理场景下，单位算力成本已经显著优于同级别英伟达产品。虽然在大模型预训练场景仍有差距，但在推理侧的竞争力正在快速提升。

随着大模型从「一锤子预训练」走向「持续迭代更新」，推理芯片的市场规模增速将持续高于训练芯片。这个结构性变化，对国产芯片厂商是一个巨大的长期利好。

挑战依然严峻：三个没有解决的难题

唱多国产芯片不代表要回避问题。当前阶段，至少有三个难题还没有被很好地解决：

难题一：CUDA生态壁垒。

全球主流AI框架和模型厂商的代码基底里，遍布着英伟达CUDA的深度优化。迁移到国产芯片不是简单的算子重写，而是需要重新优化每一个计算路径、每一个内存访问模式。这项工作量巨大，且需要整个社区的协同。目前真正完成全面迁移的模型和框架还相当有限。

难题二：先进制程的持续供货能力。

华为昇腾910B采用的是台积电7nm工艺。在美国出口管制持续收紧的背景下，先进制程芯片的代工问题始终是悬在国产芯片头上的一把剑。供应链的韧性比产品性能本身更决定长期走向。

难题三：软件栈成熟度。

芯片只是底座，真正决定用户体验的是软件工具链的完善程度。英伟达花了十几年时间构建的CUDA生态、TensorRT推理引擎、cuDNN加速库，在软件层面形成了极高的转换成本。国产芯片的软件栈在易用性、文档完善度、开发者社区规模上，与英伟达的差距仍然是数量级的。

这三个难题不会在短期内消失。承认它们存在，才是真正理解国产AI芯片进程的前提。

一个值得关注的时间节点：2025年底

综合行业调研机构的预测和多家芯片厂商的内部路线图，2025年底可能是一个关键节点：

•华为昇腾910C（如果如预期推出）将把国产AI芯片的性能上限再推高一个档次

•燧原科技第二代推理芯片预计将在互联网大厂实现更大规模的部署

•国内大模型厂商对国产算力的适配优化将在2025年底前基本完成第一轮迁移

届时，我们可能真正看到一个不一样的AI算力格局：英伟达仍然占据最高端的训练市场，但不再是唯一选项。中国AI产业第一次拥有了真正意义上的算力备选方案。

这个格局的改变，不会在一夜之间发生。但它的方向，已经没有悬念了。

你怎么看待国产AI芯片的崛起？在实际工作中是否已经接触过昇腾或其他国产AI芯片？欢迎在评论区分享你的观察和体验。