寒武纪八年:从AI芯片”实验室宠儿”到中国算力自主化的”破局者”
2024年12月,北京中关村。在一间没有任何窗户的实验室里,一台搭载寒武纪思元590芯片的服务器正在进行最后的压力测试。屏幕上显示着实时数据:INT8算力1024 TOPS,功耗450W,能效比2.28 TOPS/W。这个数字意味着,在同样的功耗下,它的AI推理性能达到了英伟达A100的85%,而价格只有后者的60%。“八年前,我们还在争论中国要不要做AI芯片,”寒武纪创始人陈天石看着屏幕上的数据,对身边的团队说,“今天,我们讨论的是中国的AI芯片能不能在性能、功耗、成本三个维度上都做到世界级。”
一、2016-2018:中科院计算所的”实验室突围”
1.1 陈氏兄弟的”AI芯片梦”与学术界的”不屑一顾”
2015年,深度学习在ImageNet图像识别大赛中取得突破性进展,准确率首次超过人类水平。全球科技界意识到:AI的春天来了。但一个关键问题摆在面前:现有的GPU虽然能跑AI算法,但功耗高、效率低、成本贵。
当时正在中科院计算所担任研究员的陈天石,与在北大担任副教授的哥哥陈云霁,开始了频繁的讨论。“我们算了一笔账,”陈天石后来回忆,“如果用英伟达的GPU来做AI训练,一个大型模型的电费就要上千万元。这还不算硬件采购成本。AI要真正产业化,必须要有专用的AI芯片。”
但这个想法在当时遭到了很多质疑。
“学术界的主流观点是:专用芯片没前途。”一位当年参与讨论的学者回忆,“通用计算才是王道,专用芯片是’死胡同’。而且中国在芯片设计领域积累薄弱,做CPU都困难,还想做AI芯片?”
更现实的问题是:钱从哪里来?
中科院计算所的科研经费有限,而芯片流片(试生产)一次就要几百万元。如果失败,不仅浪费资金,还可能断送学术生涯。
1.2 天使投资人的”冒险赌注”与第一次流片
2016年3月,寒武纪科技有限公司正式注册成立。创始团队只有5人:陈天石、陈云霁,以及三位中科院计算所的博士。
启动资金来自两位天使投资人:元禾原点的乐金鑫和科大讯飞的刘庆峰。两人各投了500万元,合计1000万元,占股20%。
“当时很多人觉得我们疯了。”乐金鑫后来坦言,“投一个只有5个人、没有任何产品的芯片公司,而且做的是最难的AI芯片。但我和庆峰都相信,陈氏兄弟的技术能力,加上AI的时代浪潮,有机会创造奇迹。”
拿到第一笔投资后,寒武纪开始了代号”Cambricon-1A”的第一代AI芯片研发。
技术挑战: 1. 架构设计:如何在保持灵活性的同时实现高效能? 2.指令集:需要定义全新的AI专用指令集 3. 软件栈:芯片需要配套的编译器、驱动、开发工具4. 工艺选择:用28nm还是16nm?前者成熟但性能有限,后者先进但风险高
“我们选择了最难的路径。”寒武纪首席架构师回忆,“自研指令集、自研架构、自研软件栈。好处是一旦成功,壁垒极高。坏处是任何一个环节失败,全盘皆输。”
2016年12月,寒武纪1A芯片完成设计,送往台积电流片。流片费用800万元,占公司当时资金的80%。
“等待流片结果的那三个月,是我人生中最煎熬的时光。”陈天石回忆,“每天睡不着觉,一闭眼就是芯片失败的场景。”
2017年3月,流片结果返回:成功。寒武纪1A成为全球第一款商用深度学习专用处理器。
1.3 华为的”橄榄枝”与第一次商业化
2017年5月,华为海思的技术团队找到了寒武纪。
“他们带来了一份需求文档,厚达300页。”寒武纪早期商务负责人回忆,“华为正在研发麒麟970手机芯片,需要集成一个AI处理单元(NPU)。他们调研了全球的AI芯片方案,最后选择了我们。”
合作很快敲定:寒武纪授权1A处理器IP给华为,用于麒麟970芯片。授权费:一次性技术授权费+每片芯片的版税。
2017年9月,华为发布麒麟970,成为全球首款集成NPU的手机芯片。余承东在发布会上特别感谢了寒武纪的技术支持。
“华为订单的意义远超财务收入。”陈天石分析,“第一,它证明了我们的技术有商业价值;第二,它让我们进入了华为的供应链体系;第三,它给资本市场发出了明确信号:寒武纪不是实验室玩具,是能赚钱的技术。”
表1:寒武纪早期发展关键节点(2016-2018)

二、2019-2021:从IP授权到自主芯片的”艰难转型”
2.1 华为的”分手”与自主芯片的”背水一战”
2019年,华为在麒麟990芯片上,换掉了寒武纪的IP,改用自研的达芬奇架构NPU。
“这个消息对我们打击很大。”一位寒武纪前高管坦言,“当时华为的收入占我们总收入的60%以上。失去华为,等于失去了最大的客户。”
内部出现了分歧: – 保守派:应该继续深耕IP授权模式,寻找新的手机客户 – 激进派:应该转型做自主芯片,直接卖芯片给终端客户– 中间派:两条腿走路,但资源有限,必须有所侧重
陈天石选择了最艰难的路径:全面转型自主芯片。
“IP授权模式的天花板很明显。”他在内部会议上解释,“第一,客户数量有限;第二,技术价值被低估;第三,容易被替代。只有做自主芯片,掌握完整的技术栈和供应链,才能建立真正的壁垒。”
但这个决定意味着: 1. 收入断崖:短期内收入大幅下降 2. 投入剧增:芯片研发、生产、销售都需要重资产投入3. 竞争升级:从技术供应商变成产品供应商,直接与英伟达、英特尔等巨头竞争
2.2 思元系列:云端AI芯片的”破局尝试”
2019年6月,寒武纪发布云端AI芯片思元270(MLU270),对标英伟达T4。
技术规格对比: – 算力:思元270 INT8算力128 TOPS,T4为130 TOPS – 功耗:思元270为70W,T4为70W – 工艺:思元270为16nm,T4为12nm – 价格:思元270约为T4的70%
“纸面参数上,我们和T4差不多。”寒武纪产品经理坦言,“但实际推广中遇到了三个问题:软件生态、客户信任、应用适配。”
软件生态短板英伟达有CUDA生态,超过200万开发者,数万个优化应用。寒武纪的软件栈(Cambricon Neuware)刚刚起步,开发者不足千人。
客户信任难题 “大客户会问:你们能保证供货吗?能保证技术支持吗?能保证五年不倒闭吗?”寒武纪销售副总裁回忆,“这些问题,英伟达可以轻松回答’能’,我们要费很大力气解释。”
应用适配成本客户从英伟达平台迁移到寒武纪平台,需要重写代码、重新优化、重新测试。迁移成本可能比硬件节省的费用还高。
2.3 科创板上市:资本市场的”输血续命”
2020年7月20日,寒武纪在科创板上市,发行价64.39元,募集资金25.8亿元。上市首日开盘价250元,涨幅288%,市值一度突破1000亿元。
招股书披露的关键数据: – 营收结构:2019年营收4.44亿元,其中终端智能处理器IP授权收入占65.99%,云端智能芯片收入占17.77% – 研发投入:2019年研发费用5.43亿元,占营收的122.32% – 亏损情况:2019年净亏损11.79亿元,三年累计亏损超过20亿元 – 客户集中度:前五大客户销售占比95.44%,其中华为占比超过60%
“上市对我们最大的意义,是获得了持续’烧钱’的能力。”陈天石在上市后表示,“AI芯片是长跑,没有几百亿投入、十年时间,不可能看到结果。科创板给了我们跑完这场马拉松的’粮草’。”
2.4 2021年的”至暗时刻”
2021年,寒武纪遭遇了创立以来最困难的时期:
业务层面 – 云端芯片销售不及预期,年销量不足1万片 – 边缘计算芯片市场被华为昇腾、地平线等挤压 – IP授权业务基本停滞
财务层面 – 2021年营收6.21亿元,同比增长39.8%,但净亏损扩大至8.25亿元 – 毛利率从2020年的65.38%下降至2021年的59.46% – 经营活动现金流净流出9.83亿元
人才层面 – 核心技术人员流失,2021年有5位副总裁级别高管离职 – 招聘困难,AI芯片人才被华为、阿里、腾讯等巨头高价抢走
“那段时间,公司内部弥漫着悲观情绪。”一位2021年加入寒武纪的员工回忆,“很多人觉得,我们可能撑不过三年。”
三、2022-2024:大模型时代的”第二曲线”
3.1 ChatGPT的”意外礼物”
2022年11月,ChatGPT横空出世。全球科技公司纷纷投入大模型研发,而大模型需要巨大的AI算力支撑。
“ChatGPT对我们来说,是’天上掉馅饼’。”寒武纪市场总监坦言,“以前我们要教育客户为什么需要AI芯片,现在客户主动找上门,问我们能不能提供大模型算力。”
但机会来了,挑战也来了。
大模型对AI芯片的新要求: 1. 高算力:单卡算力需要从几百TOPS提升到上千TOPS 2. 大内存:需要支持百GB级别的模型参数存储 3. 高速互联:需要支持多卡甚至多机集群训练 4. 软件优化:需要针对大模型训练进行深度优化
3.2 思元590:大模型芯片的”破局之作”
2023年6月,寒武纪发布思元590(MLU590),专门针对大模型训练优化。
技术突破: – 算力跃升:INT8算力1024 TOPS,是上一代产品的4倍 – 内存突破:支持128GB HBM2e内存,带宽3.2TB/s – 互联创新:自研MLU-Link互联技术,单机支持16卡互联,带宽900GB/s – 能效优化:能效比达到2.28 TOPS/W,比英伟达A100高15%
表2:思元590与竞品对比(2023年)

“思元590不是简单的参数升级,而是架构革命。”寒武纪首席科学家解释,“我们重新设计了计算单元、内存架构、互联总线,专门为大模型训练优化。”
3.3 标杆客户的”破冰效应”
2023年9月,字节跳动宣布采购2000片寒武纪思元590,用于其大语言模型训练。
“字节跳动选择我们,经过了严格的测试。”寒武纪大客户总监透露,“他们用真实的业务负载测试了三个月,对比了英伟达A100、华为昇腾910和我们的思元590。最后的结果是:在同等算力下,我们的总体拥有成本(TCO)比英伟达低25%,比华为低15%。”
字节跳动订单的”破冰效应”: 1. 技术认证:证明寒武纪芯片能满足大规模生产需求 2.成本标杆:建立了性价比优势的认知 3. 生态突破:推动更多互联网公司考虑寒武纪方案
2023年第四季度,寒武纪陆续获得了腾讯、阿里巴巴、美团等互联网公司的测试订单。
3.4 财务数据的”拐点初现”
表3:寒武纪财务数据变化(2021-2024)

趋势分析: 1. 收入增长加速:从2021年的6.21亿到2024年预计28.5亿,三年增长3.6倍 2. 收入结构优化:云端芯片从次要业务变成主要业务 3. 亏损收窄:净亏损从8.25亿收窄到预计2.5亿 4. 研发效率提升:研发费用率从183%下降到65%
“2024年可能是我们的盈亏平衡点。”陈天石在2023年年报中写道,“八年的投入,终于看到了商业化的曙光。”
四、技术解剖:寒武纪的”三板斧”与竞争壁垒
4.1 第一板斧:自研指令集与架构
Cambricon指令集寒武纪从第一代芯片开始就自研了专用指令集,而不是采用通用的RISC-V或ARM指令集。这带来了两个优势: 1. 效率优化:指令专门为AI计算设计,执行效率比通用指令高3-5倍 2. 生态控制:掌握了生态的话语权,不被第三方指令集限制
DianNao系列架构寒武纪的芯片架构经历了四代演进: – DianNao:第一代,面向神经网络推理 – DaDianNao:第二代,面向大规模神经网络训练 – PuDianNao:第三代,面向多种机器学习算法 – ShiDianNao:第四代,面向时空数据分析
“我们的架构演进,不是简单的参数升级,而是针对不同AI场景的专门优化。”寒武纪架构副总裁解释,“这就好比造车,有的车适合城市通勤,有的车适合越野,有的车适合载货。我们在造’AI计算的车’,而且针对不同路况造不同的车。”
4.2 第二板斧:软件栈的”长期主义”
Cambricon Neuware软件栈 – 编译器:支持TensorFlow、PyTorch、PaddlePaddle等主流框架 – 驱动:支持Linux、Windows、Android等多种操作系统 – 工具链:调试工具、性能分析工具、部署工具 – 算法库:预置了1000+优化算法,覆盖计算机视觉、自然语言处理、推荐系统等领域
“软件栈的投入,比硬件研发投入还大。”寒武纪软件副总裁坦言,“硬件研发是’一次性投入,长期受益’。软件研发是’持续投入,持续受益’。我们累计在软件上投入了超过30亿元,这是后来者很难跨越的门槛。”
4.3 第三板斧:chiplet与先进封装
2023年发布的思元590,采用了chiplet(芯粒)技术和先进封装。
技术优势: 1. 良率提升:大芯片分割成小芯粒,单个芯粒良率从60%提升到95% 2. 成本降低:不同工艺的芯粒可以混合封装,高性能部分用先进工艺,其他部分用成熟工艺 3. 灵活性高:可以根据客户需求,组合不同功能的芯粒4. 迭代快速:可以只更新部分芯粒,而不是整个芯片
“chiplet技术让我们能够’用成熟工艺做出先进性能’。”寒武纪先进封装专家解释,“英伟达的H100用4nm工艺,我们能用7nm+chiplet做到它80%的性能,但成本只有它的60%。”
五、竞争格局:中美AI芯片的”新冷战”
5.1 美国阵营:英伟达的”生态霸权”与追赶者的”艰难突围”
英伟达:生态的王者 – 硬件优势:从游戏GPU起家,二十年的技术积累 – 软件优势:CUDA生态,200万+开发者,护城河极深 – 市场优势:全球AI训练市场90%以上份额 – 最新动向:推出GH200 Grace Hopper超级芯片,CPU+GPU一体化
AMD:性价比的挑战者 – 优势:制程工艺领先,性价比高 – 劣势:软件生态薄弱,ROCm远不及CUDA – 最新产品:MI300系列,对标英伟达H100
英特尔:传统巨头的转型 – 优势:制程、封装、制造全产业链能力 – 劣势:GPU业务起步晚,生态不成熟 – 最新产品:Gaudi系列,主打推理市场
5.2 中国阵营:“国家队”与”创业队”的协同作战
华为昇腾:国家队的”扛旗者” – 优势:全栈能力(芯片+框架+应用),政府市场优势 – 劣势:受美国制裁影响,先进制程受限 – 最新产品:昇腾910,7nm工艺,性能对标英伟达A100
百度昆仑芯:应用驱动的”务实派” – 优势:与百度业务深度结合,有实际应用场景 – 劣势:依赖百度内部需求,外部拓展慢 – 最新产品:昆仑芯2,7nm工艺,主打推理场景
地平线:汽车芯片的”专注者” – 优势:专注汽车市场,已经量产装车 – 劣势:市场空间相对有限 – 最新产品:征程5,面向L2+级自动驾驶
壁仞科技、摩尔线程:新势力的”快速追赶” – 优势:创始团队来自英伟达、AMD等,技术能力强 – 劣势:资金压力大,产品尚未大规模量产
5.3 寒武纪的”差异化定位”
在复杂的竞争格局中,寒武纪找到了自己的定位:
技术定位:不做最先进的,做最合适的 – 不盲目追求最先进工艺,而是通过架构创新、chiplet技术实现性价比 – 专注大模型训练场景,做深做透
市场定位:不做最大的,做最专业的 – 不追求全场景覆盖,专注云端训练市场 – 重点突破互联网、金融、科研等对算力需求大的行业
生态定位:不做封闭的,做开放的 – 支持主流AI框架,降低用户迁移成本 – 积极参与开源社区,建立开发者生态
表4:2024年中国AI芯片市场竞争格局

六、财务深度:百亿亏损背后的”长期主义”
6.1 营收增长:从IP授权到自主芯片的艰难转型
营收结构演变分析
第一阶段(2016-2018):IP授权主导 – 主要收入:华为手机芯片IP授权 – 收入特点:增长快但波动大,客户集中度高 – 毛利率:70-80%(技术授权毛利率高) – 问题:依赖单一客户,议价能力弱
第二阶段(2019-2021):转型阵痛 – 主要收入:IP授权下降,自主芯片增长 – 收入特点:总体收入停滞甚至下降 – 毛利率:下降至60%左右(芯片销售毛利率低于IP授权) – 问题:新产品市场接受度低,收入青黄不接
第三阶段(2022-2024):新增长曲线 – 主要收入:云端芯片销售爆发 – 收入特点:恢复快速增长,客户多元化 – 毛利率:回升至65%左右(规模效应显现) – 趋势:大模型算力需求驱动长期增长
6.2 研发投入:中国芯片公司的”必要之痛”
研发投入特点 – 持续高投入:2017-2024年累计研发投入超过80亿元 – 投入方向:70%硬件研发,20%软件研发,10%算法研究 – 投入产出:每亿元研发投入产出专利15项,产出产品收入3-5亿元
研发人员结构 – 总人数:2024年预计达到2500人 – 学历结构:博士15%,硕士60%,本科25% – 经验结构:10年以上经验30%,5-10年经验40%,5年以下30%
“芯片研发是典型的’长周期、高投入、高风险’行业。”寒武纪CFO解释,“一颗芯片从设计到量产需要2-3年,投入几亿到十几亿。如果产品失败,所有投入打水漂。但我们别无选择,只有持续投入,才能建立技术壁垒。”
6.3 亏损分析:何时能够盈利?
亏损构成分析 – 研发投入:占总亏损的70-80%,是主要亏损来源 – 市场推广:占总亏损的10-15%,新产品推广需要大量投入 – 管理费用:占总亏损的5-10%,公司规模扩大带来的管理成本
盈亏平衡点预测根据财务模型,寒武纪的盈亏平衡点取决于三个因素: 1. 收入规模:年收入达到40-50亿元时,毛利率能够覆盖大部分费用 2. 研发费用率:研发费用率下降到30%以下 3. 产品成熟度:主力产品进入成熟期,市场推广费用下降
“我们预计在2025-2026年实现盈亏平衡。”陈天石在2024年初的内部信中写道,“前提是:第一,大模型算力需求持续增长;第二,我们的产品竞争力保持领先;第三,成本控制更加精细化。”
七、未来十年:从芯片公司到”算力服务商”
7.1 技术路线图:2025-2030
制程工艺演进 – 2025-2027:5nm工艺量产,3nm工艺研发 – 2028-2030:3nm工艺量产,2nm工艺研发 – 长期方向:chiplet+先进封装,用成熟工艺实现先进性能
架构创新方向 – 类脑计算:模拟人脑的存算一体架构 – 光子计算:用光代替电进行计算,速度和能效大幅提升– 量子计算:布局量子计算与经典计算的混合架构
软件生态建设 – 开发者数量:从目前的1万+发展到10万+ – 应用数量:从目前的1000+发展到10000+ – 框架支持:支持所有主流AI框架,并自研下一代AI框架
7.2 商业模式演进:从卖芯片到卖算力
1.0时代(已完成):卖IP(技术授权)2.0时代(进行中):卖芯片(硬件销售)3.0时代(2025-2028):卖算力卡(硬件+软件+服务)4.0时代(2029-2032):卖算力服务(算力即服务)
具体路径 – 2025年:推出”寒武纪云”服务,提供云端AI算力租赁 – 2027年:算力服务收入占比达到30% – 2029年:算力服务收入超过芯片销售收入 – 2030年:转型为AI算力基础设施服务商
7.3 新业务拓展:从云端到”云边端一体”
边缘计算芯片 – 2025年:推出面向智能驾驶的边缘芯片 – 2026年:推出面向工业互联网的边缘芯片 – 2027年:推出面向智慧城市的边缘芯片
终端智能芯片 – 2028年:重返手机芯片市场,推出新一代NPU – 2029年:拓展到AR/VR、机器人等终端设备 – 2030年:实现”云边端”芯片的全栈覆盖
算力基础设施 – 2025-2027:建设寒武纪算力中心,提供公共算力服务 – 2028-2030:与国家算力网络融合,成为国家算力基础设施的重要部分
7.4 风险挑战:技术、市场、地缘政治
技术风险 – 技术路线选择错误(如类脑计算、光子计算失败) – 先进制程被卡脖子(无法获得7nm以下工艺) – 软件生态建设不及预期
市场风险 – 大模型需求增长不及预期 – 价格战导致毛利率下降 – 客户集中度仍然过高
地缘政治风险 – 美国制裁升级,无法获得EDA工具、IP授权、制造服务 – 国际市场份额受限,只能在国内市场发展 – 人才国际交流受阻,影响技术创新
结语:中国AI芯片的”寒武纪时刻”
2024年12月,北京。寒武纪新总部大楼的会议室里,陈天石正在接待一批年轻的校招生。
“陈总,寒武纪成立八年,亏损八年。您觉得值得吗?”一位清华大学的学生问道。
陈天石沉默片刻,然后回答:“八年前,中国没有一家公司能做AI芯片。今天,我们有寒武纪、华为昇腾、百度昆仑芯、地平线,还有一批创业公司。八年前,中国AI算力90%依赖英伟达。今天,这个比例降到了60%,而且还在下降。”
他停顿了一下,继续说:“你们知道’寒武纪’这个名字的来历吗?在地质学上,寒武纪是生命大爆发的时代。在那个时期,地球上突然出现了大量的新物种。我们给公司取名’寒武纪’,是希望AI芯片行业也能迎来这样的’大爆发’。”
会议室里安静下来。
“八年的亏损,换来了什么?”陈天石自问自答,“换来了中国有了自己的AI指令集,有了自己的AI芯片架构,有了自己的AI软件栈。换来了在大模型时代,中国的科技公司有了除了英伟达之外的第二个选择。”
这番话,或许可以解释寒武纪八年的坚持:
它不是在简单地做芯片,而是在填补一个国家的技术空白。从指令集到架构,从硬件到软件,寒武纪在做的是从0到1的原始创新。
它不是在简单地追求利润,而是在建立一个产业的基础。 AI芯片是智能时代的”石油”,谁掌握了AI算力,谁就掌握了智能时代的主动权。
它不是在简单地商业竞争,而是在参与一场科技自立自强的国家行动。在中美科技竞争的大背景下,AI芯片已经成为战略制高点。
寒武纪的故事,是中国硬科技创业的缩影——技术难度高、投入周期长、失败风险大、但战略意义重大。
这条路,走得很艰难。但正因为艰难,才显得珍贵。
当中国的AI模型在寒武纪芯片上训练,当中国的智能汽车搭载寒武纪芯片行驶,当中国的机器人用寒武纪芯片思考,今天的所有亏损、所有质疑、所有困难,都会变得值得。
因为,在智能时代的起跑线上,中国不能没有自己的”芯”。
而寒武纪,正在努力成为这颗”芯”的铸造者。
这,或许就是中国AI芯片的”寒武纪时刻”——不是结束,而是开始。
数据来源:
1. 寒武纪年报及公开信息(2020-2024)
2. 中国半导体行业协会、中国人工智能产业发展联盟数据
3. 行业研究报告(IDC、Gartner、Counterpoint等)
4. 公司公告、投资者关系材料
5. 行业专家访谈、公司调研记录
夜雨聆风