上一篇我们拆解了英伟达的五层护城河。有人问:那国产芯片呢?华为昇腾、寒武纪、海光,到底差在哪里?追上去需要多久?这个问题我想了很久。因为"追上"这个词,本身就值得拆开。
························
一、先问对问题:"追上"是什么意思?
很多人问"国产芯片什么时候追上英伟达",但这个问法本身就有问题。
追上,是指单卡算力追上?还是生态追上?还是市场份额追上?这三个"追上"的难度,差了一个数量级。
我用2024年的数据说明差距有多大。中国AI芯片市场总出货量超过270万张,英伟达拿走了190万张,份额70%。华为昇腾排第二,64万张,份额23%。寒武纪、天数智芯、昆仑芯分列其后。
表面看,23%的份额好像还行。但出货量大不代表竞争力强——很多昇腾芯片是靠政策采购和信创项目撑起来的,不是市场竞争的自然结果。
更关键的指标是:大模型的训练和推理,有多少跑在国产芯片上?答案是:很少。DeepSeek、阿里通义、百度文心,训练主力依然是英伟达H100/A100。国产芯片大多在推理侧、边缘侧、或者政务云里。
所以"追上"的第一个定义是:能不能成为大模型训练的主流选择? 这一天还没到。
但这不代表国产芯片没有进步。事实上,2025-2026年,几家头部公司的产品进步速度,比很多人以为的快。
························
二、各家真实水平:不吹不黑
我逐一梳理了华为昇腾、寒武纪、海光、地平线的最新产品数据。事先说好:以下数据来自厂商官网、第三方评测和公开财报,能找到出处的我才写,找不到的我直接说"不确定"。
华为昇腾910C:最接近"可用"的一张卡
910C是910B的升级版,FP16算力约780 TFLOPS。作为对比,英伟达H100的FP16算力约1979 TFLOPS(稀疏优化下),A100是约312 TFLOPS。
也就是说,910C的算力介于A100和H100之间——比上一代旗舰强,但还没摸到H100的顶。
但单卡算力不是最重要的。真正值得关注的是华为的系统级打法:CloudMatrix384超节点,把384颗910C通过HCCS统一互联,每卡单向带宽392+ GB/s,在DeepSeek-R1推理测试中,计算效率(tokens/s/TFLOPS)已经超过了H100/H800的公开数据。
这句话的意思翻译成人话:单卡打不过,但384张卡连在一起,系统级表现可以反超。
这是华为最聪明的地方。英伟达的优势不只是单卡,是NVLink把多卡连在一起的系统性优势。华为直接在系统级上硬刚,绕过了"单卡参数对标"这个最容易暴露短板的战场。
但问题也在这里:CloudMatrix384是一套总价极高的系统,不是谁都买得起的。中小AI公司大概率还是优先选英伟达,因为生态成熟、风险低。
技术最全面,系统级打法有创意,但生态和价格仍是短板——这是昇腾目前最真实的处境。
寒武纪思元590:性能到了,生态没到
思元590的综合性能,第三方评测普遍认为是A100的80%左右。这个数字不算差,但也没到"可以替代"的程度。
寒武纪更大的问题在生态。它有Cambricon SDK,但PyTorch、TensorFlow的原生支持程度远不如CUDA。意味着什么?意味着你用寒武纪的卡跑主流模型,很可能需要改代码、调算子、自己踩坑。
AI工程师的时间是最贵的成本。如果寒武纪的卡便宜30%,但要多花3个月调代码,大部分团队会选英伟达。
2025年寒武纪年报有一个值得注意的数字:营收同比增长超过100%,但研发投入占营收比例仍然超过100%——也就是还在亏钱砸研发。这不是坏事,但也说明商业化还在早期。
性能在追,但生态差距比性能差距更难追。寒武纪的路,本质上是在跟19年的CUDA积累赛跑。
海光DCU:最聪明的打法
海光DCU走的是GPGPU路线,兼容"类CUDA"环境。翻译成人话:它的指令集和英伟达CUDA足够像,代码迁移成本相对较低。
这是最聪明的打法。因为CUDA的生态壁垒太高,正面硬刚几乎必败。海光的策略是"兼容"而不是"替代"——先让代码能跑,再慢慢建自己的生态。
但"类CUDA"不等于"CUDA"。有些算子能直接跑,有些需要改,有些改了还跑不通。这个灰度地带,就是海光的生存空间,也是它的天花板。
永远活在CUDA的阴影里——这是海光打法最务实的地方,也是它最明显的天花板。
地平线征程6:边缘侧的突围
地平线不跟英伟达在数据中心战场上硬刚,它选的是自动驾驶芯片——一个英伟达还没完全统治的市场。
征程6系列算力覆盖10-560 TOPS,主力版本256 TOPS,量产交付蔚来、理想,2024年营收约23亿元,2025年营收超过35亿元,是最早跑通商业化的国产AI芯片公司之一。
这个路线的聪明之处在于:选一个英伟达没那么强的场景,建立根据地,再慢慢扩张。就像当年ARM不跟Intel在服务器上硬刚,先占移动互联网,等到移动时代来临,Intel再也追不上了。
不跟英伟达正面交锋,先在边缘侧建立根据地——这条路的想象空间,可能比在数据中心里硬刚更大。
························
三、三道坎:技术只是第一道
把各家产品数据罗列完,真正的问题才浮现:就算单卡性能追上了,还有什么拦路?
我把这些拦路虎归纳成三道坎。每一道都比上一道更难跨。
第一道坎:算力差距(最难量化的部分)
前面说了,昇腾910C的FP16算力约780 TFLOPS,H100约1979 TFLOPS,看起来差距不大。
但英伟达已经出了B200和B300。B200的FP16算力约4500 TFLOPS,B300更高。也就是说,就算910C追上了H100,前面还有B200、B300两代产品。
更关键的是:英伟达的升级节奏是"一年一旗舰",国产芯片的升级节奏受限于先进制程产能和EDA工具,大概率跟不上这个节奏。
这意味着:算力差距可能在某个数值上缩小,但"代际差距"(几代产品的差距)很难缩小。
打个比方:你在跑100米,对手已经跑到了150米处,而且对手的速度比你快。你能缩小"距离"(从100米缩小到80米),但很难缩小"代际差距"(对手永远比你多跑一代产品)。
第二道坎:生态壁垒(最难跨越的部分)
这是最深的护城河,我在英伟达那篇里详细写过。
CUDA不是一天建成的。过去19年,全球数百万AI开发者在CUDA上积累了海量代码库、工具链和优化经验。迁移成本之高,我在那篇里算过:一个AI团队把CUDA代码迁移到国产芯片,保守估计6-12个月。
有一家公司试图解决这个问题:摩尔线程。2026年2月,摩尔线程发布MTT S5000,首次原生支持硬件FP8 Tensor Core,FP8算力达到1 PFLOPS级——这是国产全功能GPU的里程碑。
但一颗芯片支持FP8,不等于生态就建好了。TensorRT呢?cuDNN的替代方案呢?PyTorch的原生支持呢?这些是软件栈的问题,不是硬件参数能解决的。
生态建设需要时间,而时间恰恰是国产芯片最缺的东西。 英伟达不会停下来等你建好生态。
第三道坎:供应链瓶颈(最不可控的部分)
这是最容易被忽略、但可能最致命的一道坎。
一颗AI芯片的诞生,至少需要三样东西:先进逻辑晶圆(台积电或中芯国际)、HBM高带宽内存(三星/SK海力士/长鑫存储)、先进封装(台积电CoWoS或国内等效工艺)。
目前的情况是:先进制程产能是有限的,台积电优先分配给英伟达、苹果、AMD这些大客户。国产芯片公司能拿到的产能,优先级天然靠后。
HBM更麻烦。全球HBM市场95%以上被三星、SK海力士、美光垄断。国内长鑫存储在做HBM3的研发,量产时间预计在2026年底——也就是说,至少到2026年,国产芯片的HBM还是要靠进口。
EDA工具链是第三重瓶颈。Synopsys、Cadence、Siemens EDA三家占了国内EDA市场超过80%份额,而美国出口限制已经让Synopsys停止对华销售最新版EDA工具。
这三重瓶颈加起来,得到一个结论:国产芯片的"技术追赶"不只是工程和研发问题,而是"技术×产能×供应链×政策"的联合优化问题。
任何一个环节卡住,整个进度就会延迟。
························
四、时间表:我的判断
硬要给一个时间表的话,我的判断如下:
1-2年内(2026-2027): 国产芯片在推理侧、边缘侧、政务云里的份额会继续上升。昇腾910C、寒武纪思元590会在特定场景里做到"够用",但大模型训练的主力芯片仍然是英伟达。
3-5年内(2027-2029): 如果有1-2家国产芯片公司在系统级优化上取得突破(类似华为CloudMatrix的路径),可能会在推理市场拿到30-40%的份额。但训练侧,英伟达的CUDA生态仍然难以撼动。
5-8年内(2029-2032年): 变数最大的时间段。如果国内HBM量产、先进封装产能自给、EDA工具链取得突破,国产芯片有机会在大部分场景里做到"可替代"。但"可替代"不等于"更优",市场份额能否过半,取决于生态建设的速度。
8年以上: 太难预测。但如果把时间拉长到10年,历史经验是:几乎没有哪个科技产品的垄断地位能维持10年以上。英特尔在CPU领域的垄断维持了20年,但最终被ARM生态蚕食。英伟达在GPU领域的垄断,大概率也不会是永恒的。
························
五、对你的启示
如果你是投资者: 国产AI芯片公司的估值已经不低了。寒武纪、海光的市盈率都很高,市场预期已经把"国产替代"的故事price in了不少。真正的投资风险在于:生态建设的速度可能比市场预期慢,而英伟达的技术迭代速度可能比市场预期快。
如果你是AI从业者: 现在学CUDA仍然是最保值的技能。但建议同时关注华为的MindSpore、海光的ROCm兼容路径,给自己留条后路。未来3-5年,多硬件可移植的训练/推理工程体系,会成为AI工程师的核心竞争力之一。
如果你是企业决策者: 如果你们的AI训练任务对成本敏感,可以关注国产芯片的推理方案——推理对生态的要求比训练低,国产芯片在推理侧的性价比可能已经接近英伟达了。但训练侧,暂时还是英伟达更稳妥。
如果你只是个普通读者: 国产芯片的追赶,不是一场"谁更快"的短跑,而是一场"技术×生态×供应链"的马拉松。方向上是对的,但时间会比大多数人以为的长。
························
写在最后
三篇文章写到这里,科技商业观察的一个基本框架已经浮现:
DeepSeek代表了效率革命——用更少的资源做到类似效果,倒逼整个行业重新审视"堆算力"的老路。
英伟达代表了在位者的壁垒——技术领先只是城墙,生态锁定才是护城河。城墙可以被越过,护城河要填平,需要很长时间。
国产芯片代表了挑战者的困境——技术差距可以缩小,但生态壁垒和供应链瓶颈,不是靠砸钱就能短期突破的。
这三篇文章合在一起,其实在回答同一个问题:AI这场战争,到底谁会赢?
我的答案是:短期内英伟达还会是霸主,但5-8年后,格局几乎一定会变。变化的来源可能不是"谁单挑赢了英伟达",而是"AI计算范式变了,GPU不再是唯一答案"。
就像当年Intel在CPU领域不可一世,但移动时代来临,ARM赢了。英伟达在GPU领域的故事,可能也会以类似的方式结尾——不是被另一个GPU公司打败,而是被一个还没人注意到的新范式取代。
到那时候,我们今天讨论的"追上"问题,可能就不再是问题了。
你觉得国产芯片最需要在哪个方向上突破?评论区聊聊。
觉得有用,转发给可能需要的朋友。
科技商业观察 · 用商业看懂科技,用科技理解未来
夜雨聆风