中国AI芯片能不能追上来?三道坎决定上限

上一篇我们拆解了英伟达的五层护城河。有人问：那国产芯片呢？华为昇腾、寒武纪、海光，到底差在哪里？追上去需要多久？这个问题我想了很久。因为"追上"这个词，本身就值得拆开。

························

一、先问对问题："追上"是什么意思？

很多人问"国产芯片什么时候追上英伟达"，但这个问法本身就有问题。

追上，是指单卡算力追上？还是生态追上？还是市场份额追上？这三个"追上"的难度，差了一个数量级。

我用2024年的数据说明差距有多大。中国AI芯片市场总出货量超过270万张，英伟达拿走了190万张，份额70%。华为昇腾排第二，64万张，份额23%。寒武纪、天数智芯、昆仑芯分列其后。

表面看，23%的份额好像还行。但出货量大不代表竞争力强——很多昇腾芯片是靠政策采购和信创项目撑起来的，不是市场竞争的自然结果。

更关键的指标是：大模型的训练和推理，有多少跑在国产芯片上？答案是：很少。DeepSeek、阿里通义、百度文心，训练主力依然是英伟达H100/A100。国产芯片大多在推理侧、边缘侧、或者政务云里。

所以"追上"的第一个定义是：能不能成为大模型训练的主流选择？ 这一天还没到。

但这不代表国产芯片没有进步。事实上，2025-2026年，几家头部公司的产品进步速度，比很多人以为的快。

························

二、各家真实水平：不吹不黑

我逐一梳理了华为昇腾、寒武纪、海光、地平线的最新产品数据。事先说好：以下数据来自厂商官网、第三方评测和公开财报，能找到出处的我才写，找不到的我直接说"不确定"。

华为昇腾910C：最接近"可用"的一张卡

910C是910B的升级版，FP16算力约780 TFLOPS。作为对比，英伟达H100的FP16算力约1979 TFLOPS（稀疏优化下），A100是约312 TFLOPS。

也就是说，910C的算力介于A100和H100之间——比上一代旗舰强，但还没摸到H100的顶。

但单卡算力不是最重要的。真正值得关注的是华为的系统级打法：CloudMatrix384超节点，把384颗910C通过HCCS统一互联，每卡单向带宽392+ GB/s，在DeepSeek-R1推理测试中，计算效率（tokens/s/TFLOPS）已经超过了H100/H800的公开数据。

这句话的意思翻译成人话：单卡打不过，但384张卡连在一起，系统级表现可以反超。

这是华为最聪明的地方。英伟达的优势不只是单卡，是NVLink把多卡连在一起的系统性优势。华为直接在系统级上硬刚，绕过了"单卡参数对标"这个最容易暴露短板的战场。

但问题也在这里：CloudMatrix384是一套总价极高的系统，不是谁都买得起的。中小AI公司大概率还是优先选英伟达，因为生态成熟、风险低。

技术最全面，系统级打法有创意，但生态和价格仍是短板——这是昇腾目前最真实的处境。

寒武纪思元590：性能到了，生态没到

思元590的综合性能，第三方评测普遍认为是A100的80%左右。这个数字不算差，但也没到"可以替代"的程度。

寒武纪更大的问题在生态。它有Cambricon SDK，但PyTorch、TensorFlow的原生支持程度远不如CUDA。意味着什么？意味着你用寒武纪的卡跑主流模型，很可能需要改代码、调算子、自己踩坑。

AI工程师的时间是最贵的成本。如果寒武纪的卡便宜30%，但要多花3个月调代码，大部分团队会选英伟达。

2025年寒武纪年报有一个值得注意的数字：营收同比增长超过100%，但研发投入占营收比例仍然超过100%——也就是还在亏钱砸研发。这不是坏事，但也说明商业化还在早期。

性能在追，但生态差距比性能差距更难追。寒武纪的路，本质上是在跟19年的CUDA积累赛跑。

海光DCU：最聪明的打法

海光DCU走的是GPGPU路线，兼容"类CUDA"环境。翻译成人话：它的指令集和英伟达CUDA足够像，代码迁移成本相对较低。

这是最聪明的打法。因为CUDA的生态壁垒太高，正面硬刚几乎必败。海光的策略是"兼容"而不是"替代"——先让代码能跑，再慢慢建自己的生态。

但"类CUDA"不等于"CUDA"。有些算子能直接跑，有些需要改，有些改了还跑不通。这个灰度地带，就是海光的生存空间，也是它的天花板。

永远活在CUDA的阴影里——这是海光打法最务实的地方，也是它最明显的天花板。

地平线征程6：边缘侧的突围

地平线不跟英伟达在数据中心战场上硬刚，它选的是自动驾驶芯片——一个英伟达还没完全统治的市场。

征程6系列算力覆盖10-560 TOPS，主力版本256 TOPS，量产交付蔚来、理想，2024年营收约23亿元，2025年营收超过35亿元，是最早跑通商业化的国产AI芯片公司之一。

这个路线的聪明之处在于：选一个英伟达没那么强的场景，建立根据地，再慢慢扩张。就像当年ARM不跟Intel在服务器上硬刚，先占移动互联网，等到移动时代来临，Intel再也追不上了。

不跟英伟达正面交锋，先在边缘侧建立根据地——这条路的想象空间，可能比在数据中心里硬刚更大。

························

三、三道坎：技术只是第一道

把各家产品数据罗列完，真正的问题才浮现：就算单卡性能追上了，还有什么拦路？

我把这些拦路虎归纳成三道坎。每一道都比上一道更难跨。

第一道坎：算力差距（最难量化的部分）

前面说了，昇腾910C的FP16算力约780 TFLOPS，H100约1979 TFLOPS，看起来差距不大。

但英伟达已经出了B200和B300。B200的FP16算力约4500 TFLOPS，B300更高。也就是说，就算910C追上了H100，前面还有B200、B300两代产品。

更关键的是：英伟达的升级节奏是"一年一旗舰"，国产芯片的升级节奏受限于先进制程产能和EDA工具，大概率跟不上这个节奏。

这意味着：算力差距可能在某个数值上缩小，但"代际差距"（几代产品的差距）很难缩小。

打个比方：你在跑100米，对手已经跑到了150米处，而且对手的速度比你快。你能缩小"距离"（从100米缩小到80米），但很难缩小"代际差距"（对手永远比你多跑一代产品）。

第二道坎：生态壁垒（最难跨越的部分）

这是最深的护城河，我在英伟达那篇里详细写过。

CUDA不是一天建成的。过去19年，全球数百万AI开发者在CUDA上积累了海量代码库、工具链和优化经验。迁移成本之高，我在那篇里算过：一个AI团队把CUDA代码迁移到国产芯片，保守估计6-12个月。

有一家公司试图解决这个问题：摩尔线程。2026年2月，摩尔线程发布MTT S5000，首次原生支持硬件FP8 Tensor Core，FP8算力达到1 PFLOPS级——这是国产全功能GPU的里程碑。

但一颗芯片支持FP8，不等于生态就建好了。TensorRT呢？cuDNN的替代方案呢？PyTorch的原生支持呢？这些是软件栈的问题，不是硬件参数能解决的。

生态建设需要时间，而时间恰恰是国产芯片最缺的东西。英伟达不会停下来等你建好生态。

第三道坎：供应链瓶颈（最不可控的部分）

这是最容易被忽略、但可能最致命的一道坎。

一颗AI芯片的诞生，至少需要三样东西：先进逻辑晶圆（台积电或中芯国际）、HBM高带宽内存（三星/SK海力士/长鑫存储）、先进封装（台积电CoWoS或国内等效工艺）。

目前的情况是：先进制程产能是有限的，台积电优先分配给英伟达、苹果、AMD这些大客户。国产芯片公司能拿到的产能，优先级天然靠后。

HBM更麻烦。全球HBM市场95%以上被三星、SK海力士、美光垄断。国内长鑫存储在做HBM3的研发，量产时间预计在2026年底——也就是说，至少到2026年，国产芯片的HBM还是要靠进口。

EDA工具链是第三重瓶颈。Synopsys、Cadence、Siemens EDA三家占了国内EDA市场超过80%份额，而美国出口限制已经让Synopsys停止对华销售最新版EDA工具。

这三重瓶颈加起来，得到一个结论：国产芯片的"技术追赶"不只是工程和研发问题，而是"技术×产能×供应链×政策"的联合优化问题。

任何一个环节卡住，整个进度就会延迟。

························

四、时间表：我的判断

硬要给一个时间表的话，我的判断如下：

1-2年内（2026-2027）： 国产芯片在推理侧、边缘侧、政务云里的份额会继续上升。昇腾910C、寒武纪思元590会在特定场景里做到"够用"，但大模型训练的主力芯片仍然是英伟达。

3-5年内（2027-2029）： 如果有1-2家国产芯片公司在系统级优化上取得突破（类似华为CloudMatrix的路径），可能会在推理市场拿到30-40%的份额。但训练侧，英伟达的CUDA生态仍然难以撼动。

5-8年内（2029-2032年）： 变数最大的时间段。如果国内HBM量产、先进封装产能自给、EDA工具链取得突破，国产芯片有机会在大部分场景里做到"可替代"。但"可替代"不等于"更优"，市场份额能否过半，取决于生态建设的速度。

8年以上： 太难预测。但如果把时间拉长到10年，历史经验是：几乎没有哪个科技产品的垄断地位能维持10年以上。英特尔在CPU领域的垄断维持了20年，但最终被ARM生态蚕食。英伟达在GPU领域的垄断，大概率也不会是永恒的。

························

五、对你的启示

如果你是投资者： 国产AI芯片公司的估值已经不低了。寒武纪、海光的市盈率都很高，市场预期已经把"国产替代"的故事price in了不少。真正的投资风险在于：生态建设的速度可能比市场预期慢，而英伟达的技术迭代速度可能比市场预期快。

如果你是AI从业者： 现在学CUDA仍然是最保值的技能。但建议同时关注华为的MindSpore、海光的ROCm兼容路径，给自己留条后路。未来3-5年，多硬件可移植的训练/推理工程体系，会成为AI工程师的核心竞争力之一。

如果你是企业决策者： 如果你们的AI训练任务对成本敏感，可以关注国产芯片的推理方案——推理对生态的要求比训练低，国产芯片在推理侧的性价比可能已经接近英伟达了。但训练侧，暂时还是英伟达更稳妥。

如果你只是个普通读者： 国产芯片的追赶，不是一场"谁更快"的短跑，而是一场"技术×生态×供应链"的马拉松。方向上是对的，但时间会比大多数人以为的长。

························

写在最后

三篇文章写到这里，科技商业观察的一个基本框架已经浮现：

DeepSeek代表了效率革命——用更少的资源做到类似效果，倒逼整个行业重新审视"堆算力"的老路。

英伟达代表了在位者的壁垒——技术领先只是城墙，生态锁定才是护城河。城墙可以被越过，护城河要填平，需要很长时间。

国产芯片代表了挑战者的困境——技术差距可以缩小，但生态壁垒和供应链瓶颈，不是靠砸钱就能短期突破的。

这三篇文章合在一起，其实在回答同一个问题：AI这场战争，到底谁会赢？

我的答案是：短期内英伟达还会是霸主，但5-8年后，格局几乎一定会变。变化的来源可能不是"谁单挑赢了英伟达"，而是"AI计算范式变了，GPU不再是唯一答案"。

就像当年Intel在CPU领域不可一世，但移动时代来临，ARM赢了。英伟达在GPU领域的故事，可能也会以类似的方式结尾——不是被另一个GPU公司打败，而是被一个还没人注意到的新范式取代。

到那时候，我们今天讨论的"追上"问题，可能就不再是问题了。

你觉得国产芯片最需要在哪个方向上突破？评论区聊聊。

觉得有用，转发给可能需要的朋友。

科技商业观察 · 用商业看懂科技，用科技理解未来