「AI之巅」之DeepSeek——一个农村少年、一万张A100、五千亿美元市值蒸发:打破算力迷信的传奇

TECHCAFE｜公司史

2026.06

2025年1月27日，英伟达一天跌没了5890亿美元。原因？一家200人的中国公司用560万美元训练了一个开源模型

Marc Andreessen称之为"AI的斯普特尼克时刻"——DeepSeek的故事，是关于一个在GPU禁运夹缝中长大的中国团队，如何用数学创新打破了"算力=实力"的神话

「AI之巅」03

科技咖啡馆AI公司史DeepSeek

如果说OpenAI的故事是"硅谷理想主义如何变成商业帝国"，Anthropic的故事是"离开帝国的人如何用安全打败速度"——那DeepSeek的故事就是"一个在芯片禁运的夹缝中长大的中国团队，如何用数学创新打破'算力=实力'的信仰"。

它只有约200名员工（OpenAI有几千人）。它用560万美元训练出的模型（OpenAI的GPT-4估计花了超过1亿美元）。它发布R1的那一周，英伟达一天跌了5890亿美元市值——创下美股历史上最大的单日市值蒸发。美国顶级投资人Marc Andreessen说这是"AI的斯普特尼克时刻"。而这一切的背后，站着一个极其低调的中国80后——一个从农村走来、靠量化交易赚到第一桶金、用十年时间从金融杀入AI的技术狂人。

CONTENTS ///

PART 01 //

从炒股少年到量化巨富

梁文锋的起点

PART 02 //

GPU禁运前的"神操作"

一万张A100的秘密

PART 03 //

V3和R1的技术奇迹

560万美元·硅谷地震

PART 04 //

从V4到未来

万亿参数·75%永久折扣

PART

从炒股的农村少年到百亿量化巨富

Liang Wenfeng

1985年，梁文锋出生在广东湛江吴川市的一个农村，父母都是乡村小学教师。用今天的话说——这几乎是中国最没有"科技基因"的起点。

他考进了浙江大学，读电子信息工程。硕士论文研究的是"基于低成本摄像头的目标跟踪算法"——一个跟今天的"万亿参数大模型"完全无关的课题。但在浙大期间，他和同学被2008年全球金融危机启发，开始用机器学习和统计模型预测市场——这就是后来一切故事的种子。

2010年，股指期货推出，量化交易的春天来了。梁文锋和他的团队毕业第一年就大赚一笔，自营资金超过5亿元。2016年，他和两位浙大同学正式注册成立了"幻方量化"——一家完全依赖AI驱动交易策略的量化投资公司。到2021年，幻方的资管规模峰值达到1000亿元（约140亿美元）。

梁文锋这个人极度低调。2023年到2025年初，他只接受过极少数的采访。前同事评价说："他好奇、智力驱动、更关心技术问题而非财富或公众认可。"他自己的采访里说过一句话："过去三十年，中国公司几乎没有参与核心技术创新的浪潮，DeepSeek的目标是改变这种模式。"

PART

GPU禁运前的"神操作"：一万张A100的秘密

The GPU Coup

DeepSeek今天的一切成就，都源于梁文锋在2021年前后做的一个决定——而当时根本没人知道这个决定会在未来变得如此关键。

做量化交易需要极强的算力来跑AI模型。梁文锋从2020年开始，用幻方的利润大量采购Nvidia GPU：

Fire-Flyer I（2020年）

1,100块Nvidia A100 GPU，耗资约2亿元（2800万美元）

Fire-Flyer II（2021年）

约10,000块A100 GPU，耗资约10亿元（1.4亿美元）

2022年10月，美国实施对华先进AI芯片出口管制——禁售A100和H100。而幻方在此之前，已经完成了10,000块A100的采购部署。加上通过其它渠道获取的H800和H20，DeepSeek（通过幻方）总计拥有约50,000块Hopper代GPU——这成为中国最大的私有GPU集群之一。

这就是DeepSeek的算力基础。不是靠风投砸钱，不是靠政府补贴，而是一个量化基金用自己的利润，在禁运大门关上前刚好挤了进去。梁文锋自己在采访中说："这些GPU原本是为金融交易准备的。后来我们发现——可以用它们做更大的事情。"

PART

V3和R1：560万美元的技术奇迹

The $5.6M Miracle

2023年5月，DeepSeek作为独立实体从幻方剥离出来。团队只有约150名研究人员加上31人的数据团队——总共不到200人。同期OpenAI和DeepMind都是几千人的规模。

但他们选择了一条与众不同的路线：开源+低成本+仅靠幻方利润自筹资金。梁文锋说："定价原则是不亏本销售，也不追求暴利。"

2024年12月26日——圣诞节后第一天——DeepSeek发布了DeepSeek-V3。这是一个6710亿参数的混合专家（MoE）模型，每次推理只激活370亿参数。关键数据：

• 训练硬件：2,048块Nvidia H800 GPU（为中国市场定制的H100降级版）
• 训练时间：预训练不到2个月
• 训练成本：约558万美元（对比：GPT-4估计超1亿美元，Llama 3约6000万美元）
• 技术核心：FP8混合精度训练替代BF16、高效MoE路由策略
• 训练数据：14.8万亿tokens

558万对比1个亿。这就是让硅谷失眠的数字。

然后，2025年1月20日——R1发布。这是DeepSeek的第一个推理模型，MIT开源许可证（可以自由下载、修改、部署）。在AIME数学推理基准上达到79.8%，在Codeforces编程挑战上达到Elo 2029分。18天内下载1600万次（ChatGPT同期是900万次），登顶美国App Store。

一周后的1月27日，市场反应过来了一件事——如果一家200人的中国公司用受限制的芯片和560万美元就能训练出前沿模型，那美国科技巨头数千亿美元的AI资本支出到底值不值？结果：英伟达暴跌约17%，单日蒸发约5890亿美元市值。这是美股史上最大的单日市值损失。Marc Andreessen说这是"AI的斯普特尼克时刻"，也是"给世界的一份深刻礼物"。

一个月后，DeepSeek举办了"开源周"——5天连续发布5个基础设施工具（FlashMLA高效注意力解码核心、DeepEP通信库、DeepGEMM矩阵乘法核心、DualPipe并行优化器、Fire-Flyer分布式文件系统）。不像OpenAI那样藏着掖着，DeepSeek把底层技术细节全部分享出来。用开源社区的话说："这是真正的开放。"

PART

从V4到未来：万亿参数与75%永久折扣

V4 · 75% Off Forever

DeepSeek没有停下。

2026年4月24日——选了一个特别的日子，跟GPT-5.5同一天发布——DeepSeek V4正式亮相。这是一代1.6万亿参数的MoE模型，支持100万token上下文窗口（比当时的Claude Opus 4.7和GPT-5.5都长）。分为两个版本：Pro版（1.6T参数，旗舰级推理）和Flash版（284B参数，快速响应）。

然后2026年5月22日——DeepSeek宣布将V4 Pro的价格永久性降低75%。输入降到$0.435/百万token，输出$0.87。对比一下：OpenAI GPT-5.5的定价是输入$15/输出$75——DeepSeek的价格大约是OpenAI的三十四分之一。

这个定价策略背后的逻辑，梁文锋早就说过了："AI和API服务应当让每个人都能负担得起。不亏本销售，也不追求暴利。"

2026年5月，梁文锋的身价据福布斯估计约115亿美元。他被中国总理邀请参加座谈会建言献策（被视为北京对DeepSeek路线的认可），2025年春节返乡时受到"英雄般的欢迎"，家乡政府甚至出资修缮了道路。那个20年前在湛江农村玩游戏的男孩，用一行行代码走到了硅谷的对面——而且他不打算停下来。

DeepSeek的故事是「AI之巅」系列里最独特的——它不讲理想主义，不讲帝国野心，也不讲安全使命。它讲的是一道数学题：在资源被封锁的情况下，你用智慧和效率能走多远。答案似乎比任何人想象的都要远。

下一篇，「AI之巅」系列之Midjourney——11个人的公司，没有融资，年收入3亿美元。他们用图像生成教会了全世界的设计师"换一种方式做梦"。

DeepSeek的启示：算力不是唯一答案

在芯片被封锁的夹缝中，200人用560万美金证明了：真正的壁垒不是GPU的数量，而是数学创新的深度。

数据来源：DeepSeek官方GitHub与博客、AI Wiki（aiwiki.ai）、codersera.com、ofox.ai、36氪、福布斯、胡润、SemiAnalysis、BBC/CNBC报道等公开资料