寒武纪八年:从AI芯片”实验室宠儿”到中国算力自主化的”破局者”-夜雨聆风

寒武纪八年:从AI芯片”实验室宠儿”到中国算力自主化的”破局者”

2024年12月，北京中关村。在一间没有任何窗户的实验室里，一台搭载寒武纪思元590芯片的服务器正在进行最后的压力测试。屏幕上显示着实时数据：INT8算力1024 TOPS，功耗450W，能效比2.28 TOPS/W。这个数字意味着，在同样的功耗下，它的AI推理性能达到了英伟达A100的85%，而价格只有后者的60%。“八年前，我们还在争论中国要不要做AI芯片，”寒武纪创始人陈天石看着屏幕上的数据，对身边的团队说，“今天，我们讨论的是中国的AI芯片能不能在性能、功耗、成本三个维度上都做到世界级。”

一、2016-2018：中科院计算所的”实验室突围”

1.1 陈氏兄弟的”AI芯片梦”与学术界的”不屑一顾”

2015年，深度学习在ImageNet图像识别大赛中取得突破性进展，准确率首次超过人类水平。全球科技界意识到：AI的春天来了。但一个关键问题摆在面前：现有的GPU虽然能跑AI算法，但功耗高、效率低、成本贵。

当时正在中科院计算所担任研究员的陈天石，与在北大担任副教授的哥哥陈云霁，开始了频繁的讨论。“我们算了一笔账，”陈天石后来回忆，“如果用英伟达的GPU来做AI训练，一个大型模型的电费就要上千万元。这还不算硬件采购成本。AI要真正产业化，必须要有专用的AI芯片。”

但这个想法在当时遭到了很多质疑。

“学术界的主流观点是：专用芯片没前途。”一位当年参与讨论的学者回忆，“通用计算才是王道，专用芯片是’死胡同’。而且中国在芯片设计领域积累薄弱，做CPU都困难，还想做AI芯片？”

更现实的问题是：钱从哪里来？

中科院计算所的科研经费有限，而芯片流片（试生产）一次就要几百万元。如果失败，不仅浪费资金，还可能断送学术生涯。

1.2 天使投资人的”冒险赌注”与第一次流片

2016年3月，寒武纪科技有限公司正式注册成立。创始团队只有5人：陈天石、陈云霁，以及三位中科院计算所的博士。

启动资金来自两位天使投资人：元禾原点的乐金鑫和科大讯飞的刘庆峰。两人各投了500万元，合计1000万元，占股20%。

“当时很多人觉得我们疯了。”乐金鑫后来坦言，“投一个只有5个人、没有任何产品的芯片公司，而且做的是最难的AI芯片。但我和庆峰都相信，陈氏兄弟的技术能力，加上AI的时代浪潮，有机会创造奇迹。”

拿到第一笔投资后，寒武纪开始了代号”Cambricon-1A”的第一代AI芯片研发。

技术挑战： 1. 架构设计：如何在保持灵活性的同时实现高效能？ 2.指令集：需要定义全新的AI专用指令集 3. 软件栈：芯片需要配套的编译器、驱动、开发工具4. 工艺选择：用28nm还是16nm？前者成熟但性能有限，后者先进但风险高

“我们选择了最难的路径。”寒武纪首席架构师回忆，“自研指令集、自研架构、自研软件栈。好处是一旦成功，壁垒极高。坏处是任何一个环节失败，全盘皆输。”

2016年12月，寒武纪1A芯片完成设计，送往台积电流片。流片费用800万元，占公司当时资金的80%。

“等待流片结果的那三个月，是我人生中最煎熬的时光。”陈天石回忆，“每天睡不着觉，一闭眼就是芯片失败的场景。”

2017年3月，流片结果返回：成功。寒武纪1A成为全球第一款商用深度学习专用处理器。

1.3 华为的”橄榄枝”与第一次商业化

2017年5月，华为海思的技术团队找到了寒武纪。

“他们带来了一份需求文档，厚达300页。”寒武纪早期商务负责人回忆，“华为正在研发麒麟970手机芯片，需要集成一个AI处理单元（NPU）。他们调研了全球的AI芯片方案，最后选择了我们。”

合作很快敲定：寒武纪授权1A处理器IP给华为，用于麒麟970芯片。授权费：一次性技术授权费+每片芯片的版税。

2017年9月，华为发布麒麟970，成为全球首款集成NPU的手机芯片。余承东在发布会上特别感谢了寒武纪的技术支持。

“华为订单的意义远超财务收入。”陈天石分析，“第一，它证明了我们的技术有商业价值；第二，它让我们进入了华为的供应链体系；第三，它给资本市场发出了明确信号：寒武纪不是实验室玩具，是能赚钱的技术。”

表1：寒武纪早期发展关键节点（2016-2018）

二、2019-2021：从IP授权到自主芯片的”艰难转型”

2.1 华为的”分手”与自主芯片的”背水一战”

2019年，华为在麒麟990芯片上，换掉了寒武纪的IP，改用自研的达芬奇架构NPU。

“这个消息对我们打击很大。”一位寒武纪前高管坦言，“当时华为的收入占我们总收入的60%以上。失去华为，等于失去了最大的客户。”

内部出现了分歧： – 保守派：应该继续深耕IP授权模式，寻找新的手机客户 – 激进派：应该转型做自主芯片，直接卖芯片给终端客户– 中间派：两条腿走路，但资源有限，必须有所侧重

陈天石选择了最艰难的路径：全面转型自主芯片。

“IP授权模式的天花板很明显。”他在内部会议上解释，“第一，客户数量有限；第二，技术价值被低估；第三，容易被替代。只有做自主芯片，掌握完整的技术栈和供应链，才能建立真正的壁垒。”

但这个决定意味着： 1. 收入断崖：短期内收入大幅下降 2. 投入剧增：芯片研发、生产、销售都需要重资产投入3. 竞争升级：从技术供应商变成产品供应商，直接与英伟达、英特尔等巨头竞争

2.2 思元系列：云端AI芯片的”破局尝试”

2019年6月，寒武纪发布云端AI芯片思元270（MLU270），对标英伟达T4。

技术规格对比： – 算力：思元270 INT8算力128 TOPS，T4为130 TOPS – 功耗：思元270为70W，T4为70W – 工艺：思元270为16nm，T4为12nm – 价格：思元270约为T4的70%

“纸面参数上，我们和T4差不多。”寒武纪产品经理坦言，“但实际推广中遇到了三个问题：软件生态、客户信任、应用适配。”

软件生态短板英伟达有CUDA生态，超过200万开发者，数万个优化应用。寒武纪的软件栈（Cambricon Neuware）刚刚起步，开发者不足千人。

客户信任难题 “大客户会问：你们能保证供货吗？能保证技术支持吗？能保证五年不倒闭吗？”寒武纪销售副总裁回忆，“这些问题，英伟达可以轻松回答’能’，我们要费很大力气解释。”

应用适配成本客户从英伟达平台迁移到寒武纪平台，需要重写代码、重新优化、重新测试。迁移成本可能比硬件节省的费用还高。

2.3 科创板上市：资本市场的”输血续命”

2020年7月20日，寒武纪在科创板上市，发行价64.39元，募集资金25.8亿元。上市首日开盘价250元，涨幅288%，市值一度突破1000亿元。

招股书披露的关键数据： – 营收结构：2019年营收4.44亿元，其中终端智能处理器IP授权收入占65.99%，云端智能芯片收入占17.77% – 研发投入：2019年研发费用5.43亿元，占营收的122.32% – 亏损情况：2019年净亏损11.79亿元，三年累计亏损超过20亿元 – 客户集中度：前五大客户销售占比95.44%，其中华为占比超过60%

“上市对我们最大的意义，是获得了持续’烧钱’的能力。”陈天石在上市后表示，“AI芯片是长跑，没有几百亿投入、十年时间，不可能看到结果。科创板给了我们跑完这场马拉松的’粮草’。”

2.4 2021年的”至暗时刻”

2021年，寒武纪遭遇了创立以来最困难的时期：

业务层面 – 云端芯片销售不及预期，年销量不足1万片 – 边缘计算芯片市场被华为昇腾、地平线等挤压 – IP授权业务基本停滞

财务层面 – 2021年营收6.21亿元，同比增长39.8%，但净亏损扩大至8.25亿元 – 毛利率从2020年的65.38%下降至2021年的59.46% – 经营活动现金流净流出9.83亿元

人才层面 – 核心技术人员流失，2021年有5位副总裁级别高管离职 – 招聘困难，AI芯片人才被华为、阿里、腾讯等巨头高价抢走

“那段时间，公司内部弥漫着悲观情绪。”一位2021年加入寒武纪的员工回忆，“很多人觉得，我们可能撑不过三年。”

三、2022-2024：大模型时代的”第二曲线”

3.1 ChatGPT的”意外礼物”

2022年11月，ChatGPT横空出世。全球科技公司纷纷投入大模型研发，而大模型需要巨大的AI算力支撑。

“ChatGPT对我们来说，是’天上掉馅饼’。”寒武纪市场总监坦言，“以前我们要教育客户为什么需要AI芯片，现在客户主动找上门，问我们能不能提供大模型算力。”

但机会来了，挑战也来了。

大模型对AI芯片的新要求： 1. 高算力：单卡算力需要从几百TOPS提升到上千TOPS 2. 大内存：需要支持百GB级别的模型参数存储 3. 高速互联：需要支持多卡甚至多机集群训练 4. 软件优化：需要针对大模型训练进行深度优化

3.2 思元590：大模型芯片的”破局之作”

2023年6月，寒武纪发布思元590（MLU590），专门针对大模型训练优化。

技术突破： – 算力跃升：INT8算力1024 TOPS，是上一代产品的4倍 – 内存突破：支持128GB HBM2e内存，带宽3.2TB/s – 互联创新：自研MLU-Link互联技术，单机支持16卡互联，带宽900GB/s – 能效优化：能效比达到2.28 TOPS/W，比英伟达A100高15%

表2：思元590与竞品对比（2023年）

“思元590不是简单的参数升级，而是架构革命。”寒武纪首席科学家解释，“我们重新设计了计算单元、内存架构、互联总线，专门为大模型训练优化。”

3.3 标杆客户的”破冰效应”

2023年9月，字节跳动宣布采购2000片寒武纪思元590，用于其大语言模型训练。

“字节跳动选择我们，经过了严格的测试。”寒武纪大客户总监透露，“他们用真实的业务负载测试了三个月，对比了英伟达A100、华为昇腾910和我们的思元590。最后的结果是：在同等算力下，我们的总体拥有成本（TCO）比英伟达低25%，比华为低15%。”

字节跳动订单的”破冰效应”： 1. 技术认证：证明寒武纪芯片能满足大规模生产需求 2.成本标杆：建立了性价比优势的认知 3. 生态突破：推动更多互联网公司考虑寒武纪方案

2023年第四季度，寒武纪陆续获得了腾讯、阿里巴巴、美团等互联网公司的测试订单。

3.4 财务数据的”拐点初现”

表3：寒武纪财务数据变化（2021-2024）

趋势分析： 1. 收入增长加速：从2021年的6.21亿到2024年预计28.5亿，三年增长3.6倍 2. 收入结构优化：云端芯片从次要业务变成主要业务 3. 亏损收窄：净亏损从8.25亿收窄到预计2.5亿 4. 研发效率提升：研发费用率从183%下降到65%

“2024年可能是我们的盈亏平衡点。”陈天石在2023年年报中写道，“八年的投入，终于看到了商业化的曙光。”

四、技术解剖：寒武纪的”三板斧”与竞争壁垒

4.1 第一板斧：自研指令集与架构

Cambricon指令集寒武纪从第一代芯片开始就自研了专用指令集，而不是采用通用的RISC-V或ARM指令集。这带来了两个优势： 1. 效率优化：指令专门为AI计算设计，执行效率比通用指令高3-5倍 2. 生态控制：掌握了生态的话语权，不被第三方指令集限制

DianNao系列架构寒武纪的芯片架构经历了四代演进： – DianNao：第一代，面向神经网络推理 – DaDianNao：第二代，面向大规模神经网络训练 – PuDianNao：第三代，面向多种机器学习算法 – ShiDianNao：第四代，面向时空数据分析

“我们的架构演进，不是简单的参数升级，而是针对不同AI场景的专门优化。”寒武纪架构副总裁解释，“这就好比造车，有的车适合城市通勤，有的车适合越野，有的车适合载货。我们在造’AI计算的车’，而且针对不同路况造不同的车。”

4.2 第二板斧：软件栈的”长期主义”

Cambricon Neuware软件栈 – 编译器：支持TensorFlow、PyTorch、PaddlePaddle等主流框架 – 驱动：支持Linux、Windows、Android等多种操作系统 – 工具链：调试工具、性能分析工具、部署工具 – 算法库：预置了1000+优化算法，覆盖计算机视觉、自然语言处理、推荐系统等领域

“软件栈的投入，比硬件研发投入还大。”寒武纪软件副总裁坦言，“硬件研发是’一次性投入，长期受益’。软件研发是’持续投入，持续受益’。我们累计在软件上投入了超过30亿元，这是后来者很难跨越的门槛。”

4.3 第三板斧：chiplet与先进封装

2023年发布的思元590，采用了chiplet（芯粒）技术和先进封装。

技术优势： 1. 良率提升：大芯片分割成小芯粒，单个芯粒良率从60%提升到95% 2. 成本降低：不同工艺的芯粒可以混合封装，高性能部分用先进工艺，其他部分用成熟工艺 3. 灵活性高：可以根据客户需求，组合不同功能的芯粒4. 迭代快速：可以只更新部分芯粒，而不是整个芯片

“chiplet技术让我们能够’用成熟工艺做出先进性能’。”寒武纪先进封装专家解释，“英伟达的H100用4nm工艺，我们能用7nm+chiplet做到它80%的性能，但成本只有它的60%。”

五、竞争格局：中美AI芯片的”新冷战”

5.1 美国阵营：英伟达的”生态霸权”与追赶者的”艰难突围”

英伟达：生态的王者 – 硬件优势：从游戏GPU起家，二十年的技术积累 – 软件优势：CUDA生态，200万+开发者，护城河极深 – 市场优势：全球AI训练市场90%以上份额 – 最新动向：推出GH200 Grace Hopper超级芯片，CPU+GPU一体化

AMD：性价比的挑战者 – 优势：制程工艺领先，性价比高 – 劣势：软件生态薄弱，ROCm远不及CUDA – 最新产品：MI300系列，对标英伟达H100

英特尔：传统巨头的转型 – 优势：制程、封装、制造全产业链能力 – 劣势：GPU业务起步晚，生态不成熟 – 最新产品：Gaudi系列，主打推理市场

5.2 中国阵营：“国家队”与”创业队”的协同作战

华为昇腾：国家队的”扛旗者” – 优势：全栈能力（芯片+框架+应用），政府市场优势 – 劣势：受美国制裁影响，先进制程受限 – 最新产品：昇腾910，7nm工艺，性能对标英伟达A100

百度昆仑芯：应用驱动的”务实派” – 优势：与百度业务深度结合，有实际应用场景 – 劣势：依赖百度内部需求，外部拓展慢 – 最新产品：昆仑芯2，7nm工艺，主打推理场景

地平线：汽车芯片的”专注者” – 优势：专注汽车市场，已经量产装车 – 劣势：市场空间相对有限 – 最新产品：征程5，面向L2+级自动驾驶

壁仞科技、摩尔线程：新势力的”快速追赶” – 优势：创始团队来自英伟达、AMD等，技术能力强 – 劣势：资金压力大，产品尚未大规模量产

5.3 寒武纪的”差异化定位”

在复杂的竞争格局中，寒武纪找到了自己的定位：

技术定位：不做最先进的，做最合适的 – 不盲目追求最先进工艺，而是通过架构创新、chiplet技术实现性价比 – 专注大模型训练场景，做深做透

市场定位：不做最大的，做最专业的 – 不追求全场景覆盖，专注云端训练市场 – 重点突破互联网、金融、科研等对算力需求大的行业

生态定位：不做封闭的，做开放的 – 支持主流AI框架，降低用户迁移成本 – 积极参与开源社区，建立开发者生态

表4：2024年中国AI芯片市场竞争格局

六、财务深度：百亿亏损背后的”长期主义”

6.1 营收增长：从IP授权到自主芯片的艰难转型

营收结构演变分析

第一阶段（2016-2018）：IP授权主导 – 主要收入：华为手机芯片IP授权 – 收入特点：增长快但波动大，客户集中度高 – 毛利率：70-80%（技术授权毛利率高） – 问题：依赖单一客户，议价能力弱

第二阶段（2019-2021）：转型阵痛 – 主要收入：IP授权下降，自主芯片增长 – 收入特点：总体收入停滞甚至下降 – 毛利率：下降至60%左右（芯片销售毛利率低于IP授权） – 问题：新产品市场接受度低，收入青黄不接

第三阶段（2022-2024）：新增长曲线 – 主要收入：云端芯片销售爆发 – 收入特点：恢复快速增长，客户多元化 – 毛利率：回升至65%左右（规模效应显现） – 趋势：大模型算力需求驱动长期增长

6.2 研发投入：中国芯片公司的”必要之痛”

研发投入特点 – 持续高投入：2017-2024年累计研发投入超过80亿元 – 投入方向：70%硬件研发，20%软件研发，10%算法研究 – 投入产出：每亿元研发投入产出专利15项，产出产品收入3-5亿元

研发人员结构 – 总人数：2024年预计达到2500人 – 学历结构：博士15%，硕士60%，本科25% – 经验结构：10年以上经验30%，5-10年经验40%，5年以下30%

“芯片研发是典型的’长周期、高投入、高风险’行业。”寒武纪CFO解释，“一颗芯片从设计到量产需要2-3年，投入几亿到十几亿。如果产品失败，所有投入打水漂。但我们别无选择，只有持续投入，才能建立技术壁垒。”

6.3 亏损分析：何时能够盈利？

亏损构成分析 – 研发投入：占总亏损的70-80%，是主要亏损来源 – 市场推广：占总亏损的10-15%，新产品推广需要大量投入 – 管理费用：占总亏损的5-10%，公司规模扩大带来的管理成本

盈亏平衡点预测根据财务模型，寒武纪的盈亏平衡点取决于三个因素： 1. 收入规模：年收入达到40-50亿元时，毛利率能够覆盖大部分费用 2. 研发费用率：研发费用率下降到30%以下 3. 产品成熟度：主力产品进入成熟期，市场推广费用下降

“我们预计在2025-2026年实现盈亏平衡。”陈天石在2024年初的内部信中写道，“前提是：第一，大模型算力需求持续增长；第二，我们的产品竞争力保持领先；第三，成本控制更加精细化。”

七、未来十年：从芯片公司到”算力服务商”

7.1 技术路线图：2025-2030

制程工艺演进 – 2025-2027：5nm工艺量产，3nm工艺研发 – 2028-2030：3nm工艺量产，2nm工艺研发 – 长期方向：chiplet+先进封装，用成熟工艺实现先进性能

架构创新方向 – 类脑计算：模拟人脑的存算一体架构 – 光子计算：用光代替电进行计算，速度和能效大幅提升– 量子计算：布局量子计算与经典计算的混合架构

软件生态建设 – 开发者数量：从目前的1万+发展到10万+ – 应用数量：从目前的1000+发展到10000+ – 框架支持：支持所有主流AI框架，并自研下一代AI框架

7.2 商业模式演进：从卖芯片到卖算力

1.0时代（已完成）：卖IP（技术授权）2.0时代（进行中）：卖芯片（硬件销售）3.0时代（2025-2028）：卖算力卡（硬件+软件+服务）4.0时代（2029-2032）：卖算力服务（算力即服务）

具体路径 – 2025年：推出”寒武纪云”服务，提供云端AI算力租赁 – 2027年：算力服务收入占比达到30% – 2029年：算力服务收入超过芯片销售收入 – 2030年：转型为AI算力基础设施服务商

7.3 新业务拓展：从云端到”云边端一体”

边缘计算芯片 – 2025年：推出面向智能驾驶的边缘芯片 – 2026年：推出面向工业互联网的边缘芯片 – 2027年：推出面向智慧城市的边缘芯片

终端智能芯片 – 2028年：重返手机芯片市场，推出新一代NPU – 2029年：拓展到AR/VR、机器人等终端设备 – 2030年：实现”云边端”芯片的全栈覆盖

算力基础设施 – 2025-2027：建设寒武纪算力中心，提供公共算力服务 – 2028-2030：与国家算力网络融合，成为国家算力基础设施的重要部分

7.4 风险挑战：技术、市场、地缘政治

技术风险 – 技术路线选择错误（如类脑计算、光子计算失败） – 先进制程被卡脖子（无法获得7nm以下工艺） – 软件生态建设不及预期

市场风险 – 大模型需求增长不及预期 – 价格战导致毛利率下降 – 客户集中度仍然过高

地缘政治风险 – 美国制裁升级，无法获得EDA工具、IP授权、制造服务 – 国际市场份额受限，只能在国内市场发展 – 人才国际交流受阻，影响技术创新

结语：中国AI芯片的”寒武纪时刻”

2024年12月，北京。寒武纪新总部大楼的会议室里，陈天石正在接待一批年轻的校招生。

“陈总，寒武纪成立八年，亏损八年。您觉得值得吗？”一位清华大学的学生问道。

陈天石沉默片刻，然后回答：“八年前，中国没有一家公司能做AI芯片。今天，我们有寒武纪、华为昇腾、百度昆仑芯、地平线，还有一批创业公司。八年前，中国AI算力90%依赖英伟达。今天，这个比例降到了60%，而且还在下降。”

他停顿了一下，继续说：“你们知道’寒武纪’这个名字的来历吗？在地质学上，寒武纪是生命大爆发的时代。在那个时期，地球上突然出现了大量的新物种。我们给公司取名’寒武纪’，是希望AI芯片行业也能迎来这样的’大爆发’。”

会议室里安静下来。

“八年的亏损，换来了什么？”陈天石自问自答，“换来了中国有了自己的AI指令集，有了自己的AI芯片架构，有了自己的AI软件栈。换来了在大模型时代，中国的科技公司有了除了英伟达之外的第二个选择。”

这番话，或许可以解释寒武纪八年的坚持：

它不是在简单地做芯片，而是在填补一个国家的技术空白。从指令集到架构，从硬件到软件，寒武纪在做的是从0到1的原始创新。

它不是在简单地追求利润，而是在建立一个产业的基础。 AI芯片是智能时代的”石油”，谁掌握了AI算力，谁就掌握了智能时代的主动权。

它不是在简单地商业竞争，而是在参与一场科技自立自强的国家行动。在中美科技竞争的大背景下，AI芯片已经成为战略制高点。

寒武纪的故事，是中国硬科技创业的缩影——技术难度高、投入周期长、失败风险大、但战略意义重大。

这条路，走得很艰难。但正因为艰难，才显得珍贵。

当中国的AI模型在寒武纪芯片上训练，当中国的智能汽车搭载寒武纪芯片行驶，当中国的机器人用寒武纪芯片思考，今天的所有亏损、所有质疑、所有困难，都会变得值得。

因为，在智能时代的起跑线上，中国不能没有自己的”芯”。

而寒武纪，正在努力成为这颗”芯”的铸造者。

这，或许就是中国AI芯片的”寒武纪时刻”——不是结束，而是开始。

数据来源：

1. 寒武纪年报及公开信息（2020-2024）

2. 中国半导体行业协会、中国人工智能产业发展联盟数据

3. 行业研究报告（IDC、Gartner、Counterpoint等）

4. 公司公告、投资者关系材料

5. 行业专家访谈、公司调研记录