乐于分享
好东西不私藏

寒武纪八年:从AI芯片”实验室宠儿”到中国算力自主化的”破局者”

寒武纪八年:从AI芯片”实验室宠儿”到中国算力自主化的”破局者”

202412月,北京中关村。在一间没有任何窗户的实验室里,一台搭载寒武纪思元590芯片的服务器正在进行最后的压力测试。屏幕上显示着实时数据:INT8算力1024 TOPS,功耗450W,能效比2.28 TOPS/W。这个数字意味着,在同样的功耗下,它的AI推理性能达到了英伟达A10085%,而价格只有后者的60%八年前,我们还在争论中国要不要做AI芯片,寒武纪创始人陈天石看着屏幕上的数据,对身边的团队说,今天,我们讨论的是中国的AI芯片能不能在性能、功耗、成本三个维度上都做到世界级。


一、2016-2018:中科院计算所的实验室突围

1.1 陈氏兄弟的”AI芯片梦与学术界的不屑一顾

2015年,深度学习在ImageNet图像识别大赛中取得突破性进展,准确率首次超过人类水平。全球科技界意识到:AI的春天来了。但一个关键问题摆在面前:现有的GPU虽然能跑AI算法,但功耗高、效率低、成本贵。

当时正在中科院计算所担任研究员的陈天石,与在北大担任副教授的哥哥陈云霁,开始了频繁的讨论。我们算了一笔账,陈天石后来回忆,如果用英伟达的GPU来做AI训练,一个大型模型的电费就要上千万元。这还不算硬件采购成本。AI要真正产业化,必须要有专用的AI芯片。

但这个想法在当时遭到了很多质疑。

学术界的主流观点是:专用芯片没前途。一位当年参与讨论的学者回忆,通用计算才是王道,专用芯片是死胡同。而且中国在芯片设计领域积累薄弱,做CPU都困难,还想做AI芯片?

更现实的问题是:钱从哪里来?

中科院计算所的科研经费有限,而芯片流片(试生产)一次就要几百万元。如果失败,不仅浪费资金,还可能断送学术生涯。

1.2 天使投资人的冒险赌注与第一次流片

20163月,寒武纪科技有限公司正式注册成立。创始团队只有5人:陈天石、陈云霁,以及三位中科院计算所的博士。

启动资金来自两位天使投资人:元禾原点的乐金鑫和科大讯飞的刘庆峰。两人各投了500万元,合计1000万元,占股20%

当时很多人觉得我们疯了。乐金鑫后来坦言,投一个只有5个人、没有任何产品的芯片公司,而且做的是最难的AI芯片。但我和庆峰都相信,陈氏兄弟的技术能力,加上AI的时代浪潮,有机会创造奇迹。

拿到第一笔投资后,寒武纪开始了代号”Cambricon-1A”的第一代AI芯片研发。

技术挑战 1. 架构设计:如何在保持灵活性的同时实现高效能? 2.指令集:需要定义全新的AI专用指令集 3. 软件栈:芯片需要配套的编译器、驱动、开发工具4. 工艺选择:用28nm还是16nm?前者成熟但性能有限,后者先进但风险高

我们选择了最难的路径。寒武纪首席架构师回忆,自研指令集、自研架构、自研软件栈。好处是一旦成功,壁垒极高。坏处是任何一个环节失败,全盘皆输。

201612月,寒武纪1A芯片完成设计,送往台积电流片。流片费用800万元,占公司当时资金的80%

等待流片结果的那三个月,是我人生中最煎熬的时光。陈天石回忆,每天睡不着觉,一闭眼就是芯片失败的场景。

20173月,流片结果返回:成功。寒武纪1A成为全球第一款商用深度学习专用处理器。

1.3 华为的橄榄枝与第一次商业化

20175月,华为海思的技术团队找到了寒武纪。

他们带来了一份需求文档,厚达300页。寒武纪早期商务负责人回忆,华为正在研发麒麟970手机芯片,需要集成一个AI处理单元(NPU)。他们调研了全球的AI芯片方案,最后选择了我们。

合作很快敲定:寒武纪授权1A处理器IP给华为,用于麒麟970芯片。授权费:一次性技术授权费+每片芯片的版税。

20179月,华为发布麒麟970,成为全球首款集成NPU的手机芯片。余承东在发布会上特别感谢了寒武纪的技术支持。

华为订单的意义远超财务收入。陈天石分析,第一,它证明了我们的技术有商业价值;第二,它让我们进入了华为的供应链体系;第三,它给资本市场发出了明确信号:寒武纪不是实验室玩具,是能赚钱的技术。

1:寒武纪早期发展关键节点(2016-2018

二、2019-2021:从IP授权到自主芯片的艰难转型

2.1 华为的分手与自主芯片的背水一战

2019年,华为在麒麟990芯片上,换掉了寒武纪的IP,改用自研的达芬奇架构NPU

这个消息对我们打击很大。一位寒武纪前高管坦言,当时华为的收入占我们总收入的60%以上。失去华为,等于失去了最大的客户。

内部出现了分歧: – 保守派:应该继续深耕IP授权模式,寻找新的手机客户 – 激进派:应该转型做自主芯片,直接卖芯片给终端客户– 中间派:两条腿走路,但资源有限,必须有所侧重

陈天石选择了最艰难的路径:全面转型自主芯片

“IP授权模式的天花板很明显。他在内部会议上解释,第一,客户数量有限;第二,技术价值被低估;第三,容易被替代。只有做自主芯片,掌握完整的技术栈和供应链,才能建立真正的壁垒。

但这个决定意味着: 1. 收入断崖:短期内收入大幅下降 2. 投入剧增:芯片研发、生产、销售都需要重资产投入3. 竞争升级:从技术供应商变成产品供应商,直接与英伟达、英特尔等巨头竞争

2.2 思元系列:云端AI芯片的破局尝试

20196月,寒武纪发布云端AI芯片思元270MLU270),对标英伟达T4

技术规格对比 – 算力:思元270 INT8算力128 TOPST4130 TOPS – 功耗:思元27070WT470W – 工艺:思元27016nmT412nm – 价格:思元270约为T470%

纸面参数上,我们和T4差不多。寒武纪产品经理坦言,但实际推广中遇到了三个问题:软件生态、客户信任、应用适配。

软件生态短板英伟达有CUDA生态,超过200万开发者,数万个优化应用。寒武纪的软件栈(Cambricon Neuware)刚刚起步,开发者不足千人。

客户信任难题 “大客户会问:你们能保证供货吗?能保证技术支持吗?能保证五年不倒闭吗?寒武纪销售副总裁回忆,这些问题,英伟达可以轻松回答,我们要费很大力气解释。

应用适配成本客户从英伟达平台迁移到寒武纪平台,需要重写代码、重新优化、重新测试。迁移成本可能比硬件节省的费用还高。

2.3 科创板上市:资本市场的输血续命

2020720日,寒武纪在科创板上市,发行价64.39元,募集资金25.8亿元。上市首日开盘价250元,涨幅288%,市值一度突破1000亿元。

招股书披露的关键数据 – 营收结构2019年营收4.44亿元,其中终端智能处理器IP授权收入占65.99%,云端智能芯片收入占17.77% – 研发投入2019年研发费用5.43亿元,占营收的122.32% – 亏损情况2019年净亏损11.79亿元,三年累计亏损超过20亿元 – 客户集中度:前五大客户销售占比95.44%,其中华为占比超过60%

上市对我们最大的意义,是获得了持续烧钱的能力。陈天石在上市后表示,“AI芯片是长跑,没有几百亿投入、十年时间,不可能看到结果。科创板给了我们跑完这场马拉松的粮草

2.4 2021年的至暗时刻

2021年,寒武纪遭遇了创立以来最困难的时期:

业务层面 – 云端芯片销售不及预期,年销量不足1万片 – 边缘计算芯片市场被华为昇腾、地平线等挤压 – IP授权业务基本停滞

财务层面 – 2021年营收6.21亿元,同比增长39.8%,但净亏损扩大至8.25亿元 – 毛利率从2020年的65.38%下降至2021年的59.46% – 经营活动现金流净流出9.83亿元

人才层面 – 核心技术人员流失,2021年有5位副总裁级别高管离职 – 招聘困难,AI芯片人才被华为、阿里、腾讯等巨头高价抢走

那段时间,公司内部弥漫着悲观情绪。一位2021年加入寒武纪的员工回忆,很多人觉得,我们可能撑不过三年。

三、2022-2024:大模型时代的第二曲线

3.1 ChatGPT意外礼物

202211月,ChatGPT横空出世。全球科技公司纷纷投入大模型研发,而大模型需要巨大的AI算力支撑。

“ChatGPT对我们来说,是天上掉馅饼寒武纪市场总监坦言,以前我们要教育客户为什么需要AI芯片,现在客户主动找上门,问我们能不能提供大模型算力。

但机会来了,挑战也来了。

大模型对AI芯片的新要求 1. 高算力:单卡算力需要从几百TOPS提升到上千TOPS 2. 大内存:需要支持百GB级别的模型参数存储 3. 高速互联:需要支持多卡甚至多机集群训练 4. 软件优化:需要针对大模型训练进行深度优化

3.2 思元590:大模型芯片的破局之作

20236月,寒武纪发布思元590MLU590),专门针对大模型训练优化。

技术突破 – 算力跃升INT8算力1024 TOPS,是上一代产品的4 – 内存突破:支持128GB HBM2e内存,带宽3.2TB/s – 互联创新:自研MLU-Link互联技术,单机支持16卡互联,带宽900GB/s – 能效优化:能效比达到2.28 TOPS/W,比英伟达A10015%

2:思元590与竞品对比(2023年)

思元590不是简单的参数升级,而是架构革命。寒武纪首席科学家解释,我们重新设计了计算单元、内存架构、互联总线,专门为大模型训练优化。

3.3 标杆客户的破冰效应

20239月,字节跳动宣布采购2000片寒武纪思元590,用于其大语言模型训练。

字节跳动选择我们,经过了严格的测试。寒武纪大客户总监透露,他们用真实的业务负载测试了三个月,对比了英伟达A100、华为昇腾910和我们的思元590。最后的结果是:在同等算力下,我们的总体拥有成本(TCO)比英伟达低25%,比华为低15%

字节跳动订单的破冰效应 1. 技术认证:证明寒武纪芯片能满足大规模生产需求 2.成本标杆:建立了性价比优势的认知 3. 生态突破:推动更多互联网公司考虑寒武纪方案

2023年第四季度,寒武纪陆续获得了腾讯、阿里巴巴、美团等互联网公司的测试订单。

3.4 财务数据的拐点初现

3:寒武纪财务数据变化(2021-2024

趋势分析 1. 收入增长加速:从2021年的6.21亿到2024年预计28.5亿,三年增长3.6 2. 收入结构优化:云端芯片从次要业务变成主要业务 3. 亏损收窄:净亏损从8.25亿收窄到预计2.5亿 4. 研发效率提升:研发费用率从183%下降到65%

“2024年可能是我们的盈亏平衡点。陈天石在2023年年报中写道,八年的投入,终于看到了商业化的曙光。

四、技术解剖:寒武纪的三板斧与竞争壁垒

4.1 第一板斧:自研指令集与架构

Cambricon指令集寒武纪从第一代芯片开始就自研了专用指令集,而不是采用通用的RISC-VARM指令集。这带来了两个优势: 1. 效率优化:指令专门为AI计算设计,执行效率比通用指令高3-5 2. 生态控制:掌握了生态的话语权,不被第三方指令集限制

DianNao系列架构寒武纪的芯片架构经历了四代演进: – DianNao:第一代,面向神经网络推理 – DaDianNao:第二代,面向大规模神经网络训练 – PuDianNao:第三代,面向多种机器学习算法 – ShiDianNao:第四代,面向时空数据分析

我们的架构演进,不是简单的参数升级,而是针对不同AI场景的专门优化。寒武纪架构副总裁解释,这就好比造车,有的车适合城市通勤,有的车适合越野,有的车适合载货。我们在造’AI计算的车,而且针对不同路况造不同的车。

4.2 第二板斧:软件栈的长期主义

Cambricon Neuware软件栈 – 编译器:支持TensorFlowPyTorchPaddlePaddle等主流框架 – 驱动:支持LinuxWindowsAndroid等多种操作系统 – 工具链:调试工具、性能分析工具、部署工具 – 算法库:预置了1000+优化算法,覆盖计算机视觉、自然语言处理、推荐系统等领域

软件栈的投入,比硬件研发投入还大。寒武纪软件副总裁坦言,硬件研发是一次性投入,长期受益。软件研发是持续投入,持续受益。我们累计在软件上投入了超过30亿元,这是后来者很难跨越的门槛。

4.3 第三板斧:chiplet与先进封装

2023年发布的思元590,采用了chiplet(芯粒)技术和先进封装。

技术优势 1. 良率提升:大芯片分割成小芯粒,单个芯粒良率从60%提升到95% 2. 成本降低:不同工艺的芯粒可以混合封装,高性能部分用先进工艺,其他部分用成熟工艺 3. 灵活性高:可以根据客户需求,组合不同功能的芯粒4. 迭代快速:可以只更新部分芯粒,而不是整个芯片

“chiplet技术让我们能够用成熟工艺做出先进性能寒武纪先进封装专家解释,英伟达的H1004nm工艺,我们能用7nm+chiplet做到它80%的性能,但成本只有它的60%

五、竞争格局:中美AI芯片的新冷战

5.1 美国阵营:英伟达的生态霸权与追赶者的艰难突围

英伟达:生态的王者 – 硬件优势:从游戏GPU起家,二十年的技术积累 – 软件优势CUDA生态,200+开发者,护城河极深 – 市场优势:全球AI训练市场90%以上份额 – 最新动向:推出GH200 Grace Hopper超级芯片,CPU+GPU一体化

AMD:性价比的挑战者 – 优势:制程工艺领先,性价比高 – 劣势:软件生态薄弱,ROCm远不及CUDA – 最新产品MI300系列,对标英伟达H100

英特尔:传统巨头的转型 – 优势:制程、封装、制造全产业链能力 – 劣势GPU业务起步晚,生态不成熟 – 最新产品Gaudi系列,主打推理市场

5.2 中国阵营:国家队创业队的协同作战

华为昇腾:国家队的扛旗者 – 优势:全栈能力(芯片+框架+应用),政府市场优势 – 劣势:受美国制裁影响,先进制程受限 – 最新产品:昇腾9107nm工艺,性能对标英伟达A100

百度昆仑芯:应用驱动的务实派 – 优势:与百度业务深度结合,有实际应用场景 – 劣势:依赖百度内部需求,外部拓展慢 – 最新产品:昆仑芯27nm工艺,主打推理场景

地平线:汽车芯片的专注者 – 优势:专注汽车市场,已经量产装车 – 劣势:市场空间相对有限 – 最新产品:征程5,面向L2+级自动驾驶

壁仞科技、摩尔线程:新势力的快速追赶 – 优势:创始团队来自英伟达、AMD等,技术能力强 – 劣势:资金压力大,产品尚未大规模量产

5.3 寒武纪的差异化定位

在复杂的竞争格局中,寒武纪找到了自己的定位:

技术定位:不做最先进的,做最合适的 – 不盲目追求最先进工艺,而是通过架构创新、chiplet技术实现性价比 – 专注大模型训练场景,做深做透

市场定位:不做最大的,做最专业的 – 不追求全场景覆盖,专注云端训练市场 – 重点突破互联网、金融、科研等对算力需求大的行业

生态定位:不做封闭的,做开放的 – 支持主流AI框架,降低用户迁移成本 – 积极参与开源社区,建立开发者生态

42024年中国AI芯片市场竞争格局

六、财务深度:百亿亏损背后的长期主义

6.1 营收增长:从IP授权到自主芯片的艰难转型

营收结构演变分析

第一阶段(2016-2018):IP授权主导 – 主要收入:华为手机芯片IP授权 – 收入特点:增长快但波动大,客户集中度高 – 毛利率70-80%(技术授权毛利率高) – 问题:依赖单一客户,议价能力弱

第二阶段(2019-2021):转型阵痛 – 主要收入IP授权下降,自主芯片增长 – 收入特点:总体收入停滞甚至下降 – 毛利率:下降至60%左右(芯片销售毛利率低于IP授权) – 问题:新产品市场接受度低,收入青黄不接

第三阶段(2022-2024):新增长曲线 – 主要收入:云端芯片销售爆发 – 收入特点:恢复快速增长,客户多元化 – 毛利率:回升至65%左右(规模效应显现) – 趋势:大模型算力需求驱动长期增长

6.2 研发投入:中国芯片公司的必要之痛

研发投入特点 – 持续高投入2017-2024年累计研发投入超过80亿元 – 投入方向70%硬件研发,20%软件研发,10%算法研究 – 投入产出:每亿元研发投入产出专利15项,产出产品收入3-5亿元

研发人员结构 – 总人数2024年预计达到2500 – 学历结构:博士15%,硕士60%,本科25% – 经验结构10年以上经验30%5-10年经验40%5年以下30%

芯片研发是典型的长周期、高投入、高风险行业。寒武纪CFO解释,一颗芯片从设计到量产需要2-3年,投入几亿到十几亿。如果产品失败,所有投入打水漂。但我们别无选择,只有持续投入,才能建立技术壁垒。

6.3 亏损分析:何时能够盈利?

亏损构成分析 – 研发投入:占总亏损的70-80%,是主要亏损来源 – 市场推广:占总亏损的10-15%,新产品推广需要大量投入 – 管理费用:占总亏损的5-10%,公司规模扩大带来的管理成本

盈亏平衡点预测根据财务模型,寒武纪的盈亏平衡点取决于三个因素: 1. 收入规模:年收入达到40-50亿元时,毛利率能够覆盖大部分费用 2. 研发费用率:研发费用率下降到30%以下 3. 产品成熟度:主力产品进入成熟期,市场推广费用下降

我们预计在2025-2026年实现盈亏平衡。陈天石在2024年初的内部信中写道,前提是:第一,大模型算力需求持续增长;第二,我们的产品竞争力保持领先;第三,成本控制更加精细化。

七、未来十年:从芯片公司到算力服务商

7.1 技术路线图:2025-2030

制程工艺演进 – 2025-20275nm工艺量产,3nm工艺研发 – 2028-20303nm工艺量产,2nm工艺研发 – 长期方向chiplet+先进封装,用成熟工艺实现先进性能

架构创新方向 – 类脑计算:模拟人脑的存算一体架构 – 光子计算:用光代替电进行计算,速度和能效大幅提升– 量子计算:布局量子计算与经典计算的混合架构

软件生态建设 – 开发者数量:从目前的1+发展到10+ – 应用数量:从目前的1000+发展到10000+ – 框架支持:支持所有主流AI框架,并自研下一代AI框架

7.2 商业模式演进:从卖芯片到卖算力

1.0时代(已完成):卖IP(技术授权)2.0时代(进行中):卖芯片(硬件销售)3.0时代(2025-2028:卖算力卡(硬件+软件+服务)4.0时代(2029-2032:卖算力服务(算力即服务)

具体路径 – 2025:推出寒武纪云服务,提供云端AI算力租赁 – 2027:算力服务收入占比达到30% – 2029:算力服务收入超过芯片销售收入 – 2030:转型为AI算力基础设施服务商

7.3 新业务拓展:从云端到云边端一体

边缘计算芯片 – 2025:推出面向智能驾驶的边缘芯片 – 2026:推出面向工业互联网的边缘芯片 – 2027:推出面向智慧城市的边缘芯片

终端智能芯片 – 2028:重返手机芯片市场,推出新一代NPU – 2029:拓展到AR/VR、机器人等终端设备 – 2030:实现云边端芯片的全栈覆盖

算力基础设施 – 2025-2027:建设寒武纪算力中心,提供公共算力服务 – 2028-2030:与国家算力网络融合,成为国家算力基础设施的重要部分

7.4 风险挑战:技术、市场、地缘政治

技术风险 – 技术路线选择错误(如类脑计算、光子计算失败) – 先进制程被卡脖子(无法获得7nm以下工艺) – 软件生态建设不及预期

市场风险 – 大模型需求增长不及预期 – 价格战导致毛利率下降 – 客户集中度仍然过高

地缘政治风险 – 美国制裁升级,无法获得EDA工具、IP授权、制造服务 – 国际市场份额受限,只能在国内市场发展 – 人才国际交流受阻,影响技术创新

结语:中国AI芯片的寒武纪时刻

202412月,北京。寒武纪新总部大楼的会议室里,陈天石正在接待一批年轻的校招生。

陈总,寒武纪成立八年,亏损八年。您觉得值得吗?一位清华大学的学生问道。

陈天石沉默片刻,然后回答:八年前,中国没有一家公司能做AI芯片。今天,我们有寒武纪、华为昇腾、百度昆仑芯、地平线,还有一批创业公司。八年前,中国AI算力90%依赖英伟达。今天,这个比例降到了60%,而且还在下降。

他停顿了一下,继续说:你们知道寒武纪这个名字的来历吗?在地质学上,寒武纪是生命大爆发的时代。在那个时期,地球上突然出现了大量的新物种。我们给公司取名寒武纪,是希望AI芯片行业也能迎来这样的大爆发

会议室里安静下来。

八年的亏损,换来了什么?陈天石自问自答,换来了中国有了自己的AI指令集,有了自己的AI芯片架构,有了自己的AI软件栈。换来了在大模型时代,中国的科技公司有了除了英伟达之外的第二个选择。

这番话,或许可以解释寒武纪八年的坚持:

它不是在简单地做芯片,而是在填补一个国家的技术空白。从指令集到架构,从硬件到软件,寒武纪在做的是从01的原始创新。

它不是在简单地追求利润,而是在建立一个产业的基础。 AI芯片是智能时代的石油,谁掌握了AI算力,谁就掌握了智能时代的主动权。

它不是在简单地商业竞争,而是在参与一场科技自立自强的国家行动。在中美科技竞争的大背景下,AI芯片已经成为战略制高点。

寒武纪的故事,是中国硬科技创业的缩影——技术难度高、投入周期长、失败风险大、但战略意义重大。

这条路,走得很艰难。但正因为艰难,才显得珍贵。

当中国的AI模型在寒武纪芯片上训练,当中国的智能汽车搭载寒武纪芯片行驶,当中国的机器人用寒武纪芯片思考,今天的所有亏损、所有质疑、所有困难,都会变得值得。

因为,在智能时代的起跑线上,中国不能没有自己的

而寒武纪,正在努力成为这颗的铸造者。

这,或许就是中国AI芯片的寒武纪时刻”——不是结束,而是开始。

数据来源

1. 寒武纪年报及公开信息(2020-2024

2. 中国半导体行业协会、中国人工智能产业发展联盟数据

3. 行业研究报告(IDCGartnerCounterpoint等)

4. 公司公告、投资者关系材料

5. 行业专家访谈、公司调研记录