2025年1月27日,英伟达一天跌没了5890亿美元。原因?一家200人的中国公司用560万美元训练了一个开源模型
Marc Andreessen称之为"AI的斯普特尼克时刻"——DeepSeek的故事,是关于一个在GPU禁运夹缝中长大的中国团队,如何用数学创新打破了"算力=实力"的神话

如果说OpenAI的故事是"硅谷理想主义如何变成商业帝国",Anthropic的故事是"离开帝国的人如何用安全打败速度"——那DeepSeek的故事就是"一个在芯片禁运的夹缝中长大的中国团队,如何用数学创新打破'算力=实力'的信仰"。
它只有约200名员工(OpenAI有几千人)。它用560万美元训练出的模型(OpenAI的GPT-4估计花了超过1亿美元)。它发布R1的那一周,英伟达一天跌了5890亿美元市值——创下美股历史上最大的单日市值蒸发。美国顶级投资人Marc Andreessen说这是"AI的斯普特尼克时刻"。而这一切的背后,站着一个极其低调的中国80后——一个从农村走来、靠量化交易赚到第一桶金、用十年时间从金融杀入AI的技术狂人。
CONTENTS ///
PART 01 //
从炒股少年到量化巨富
梁文锋的起点
PART 02 //
GPU禁运前的"神操作"
一万张A100的秘密
PART 03 //
V3和R1的技术奇迹
560万美元·硅谷地震
PART 04 //
从V4到未来
万亿参数·75%永久折扣
01
PART
从炒股的农村少年到百亿量化巨富
Liang Wenfeng
1985年,梁文锋出生在广东湛江吴川市的一个农村,父母都是乡村小学教师。用今天的话说——这几乎是中国最没有"科技基因"的起点。
他考进了浙江大学,读电子信息工程。硕士论文研究的是"基于低成本摄像头的目标跟踪算法"——一个跟今天的"万亿参数大模型"完全无关的课题。但在浙大期间,他和同学被2008年全球金融危机启发,开始用机器学习和统计模型预测市场——这就是后来一切故事的种子。

2010年,股指期货推出,量化交易的春天来了。梁文锋和他的团队毕业第一年就大赚一笔,自营资金超过5亿元。2016年,他和两位浙大同学正式注册成立了"幻方量化"——一家完全依赖AI驱动交易策略的量化投资公司。到2021年,幻方的资管规模峰值达到1000亿元(约140亿美元)。
梁文锋这个人极度低调。2023年到2025年初,他只接受过极少数的采访。前同事评价说:"他好奇、智力驱动、更关心技术问题而非财富或公众认可。"他自己的采访里说过一句话:"过去三十年,中国公司几乎没有参与核心技术创新的浪潮,DeepSeek的目标是改变这种模式。"
02
PART
GPU禁运前的"神操作":一万张A100的秘密
The GPU Coup
DeepSeek今天的一切成就,都源于梁文锋在2021年前后做的一个决定——而当时根本没人知道这个决定会在未来变得如此关键。
做量化交易需要极强的算力来跑AI模型。梁文锋从2020年开始,用幻方的利润大量采购Nvidia GPU:
Fire-Flyer I(2020年)
1,100块Nvidia A100 GPU,耗资约2亿元(2800万美元)
Fire-Flyer II(2021年)
约10,000块A100 GPU,耗资约10亿元(1.4亿美元)
2022年10月,美国实施对华先进AI芯片出口管制——禁售A100和H100。而幻方在此之前,已经完成了10,000块A100的采购部署。加上通过其它渠道获取的H800和H20,DeepSeek(通过幻方)总计拥有约50,000块Hopper代GPU——这成为中国最大的私有GPU集群之一。
这就是DeepSeek的算力基础。不是靠风投砸钱,不是靠政府补贴,而是一个量化基金用自己的利润,在禁运大门关上前刚好挤了进去。梁文锋自己在采访中说:"这些GPU原本是为金融交易准备的。后来我们发现——可以用它们做更大的事情。"
03
PART
V3和R1:560万美元的技术奇迹
The $5.6M Miracle
2023年5月,DeepSeek作为独立实体从幻方剥离出来。团队只有约150名研究人员加上31人的数据团队——总共不到200人。同期OpenAI和DeepMind都是几千人的规模。
但他们选择了一条与众不同的路线:开源+低成本+仅靠幻方利润自筹资金。梁文锋说:"定价原则是不亏本销售,也不追求暴利。"
2024年12月26日——圣诞节后第一天——DeepSeek发布了DeepSeek-V3。这是一个6710亿参数的混合专家(MoE)模型,每次推理只激活370亿参数。关键数据:
• 训练硬件:2,048块Nvidia H800 GPU(为中国市场定制的H100降级版)
• 训练时间:预训练不到2个月
• 训练成本:约558万美元(对比:GPT-4估计超1亿美元,Llama 3约6000万美元)
• 技术核心:FP8混合精度训练替代BF16、高效MoE路由策略
• 训练数据:14.8万亿tokens
558万对比1个亿。这就是让硅谷失眠的数字。
然后,2025年1月20日——R1发布。这是DeepSeek的第一个推理模型,MIT开源许可证(可以自由下载、修改、部署)。在AIME数学推理基准上达到79.8%,在Codeforces编程挑战上达到Elo 2029分。18天内下载1600万次(ChatGPT同期是900万次),登顶美国App Store。
一周后的1月27日,市场反应过来了一件事——如果一家200人的中国公司用受限制的芯片和560万美元就能训练出前沿模型,那美国科技巨头数千亿美元的AI资本支出到底值不值?结果:英伟达暴跌约17%,单日蒸发约5890亿美元市值。这是美股史上最大的单日市值损失。Marc Andreessen说这是"AI的斯普特尼克时刻",也是"给世界的一份深刻礼物"。
一个月后,DeepSeek举办了"开源周"——5天连续发布5个基础设施工具(FlashMLA高效注意力解码核心、DeepEP通信库、DeepGEMM矩阵乘法核心、DualPipe并行优化器、Fire-Flyer分布式文件系统)。不像OpenAI那样藏着掖着,DeepSeek把底层技术细节全部分享出来。用开源社区的话说:"这是真正的开放。"
04
PART
从V4到未来:万亿参数与75%永久折扣
V4 · 75% Off Forever
DeepSeek没有停下。
2026年4月24日——选了一个特别的日子,跟GPT-5.5同一天发布——DeepSeek V4正式亮相。这是一代1.6万亿参数的MoE模型,支持100万token上下文窗口(比当时的Claude Opus 4.7和GPT-5.5都长)。分为两个版本:Pro版(1.6T参数,旗舰级推理)和Flash版(284B参数,快速响应)。

然后2026年5月22日——DeepSeek宣布将V4 Pro的价格永久性降低75%。输入降到$0.435/百万token,输出$0.87。对比一下:OpenAI GPT-5.5的定价是输入$15/输出$75——DeepSeek的价格大约是OpenAI的三十四分之一。
这个定价策略背后的逻辑,梁文锋早就说过了:"AI和API服务应当让每个人都能负担得起。不亏本销售,也不追求暴利。"
2026年5月,梁文锋的身价据福布斯估计约115亿美元。他被中国总理邀请参加座谈会建言献策(被视为北京对DeepSeek路线的认可),2025年春节返乡时受到"英雄般的欢迎",家乡政府甚至出资修缮了道路。那个20年前在湛江农村玩游戏的男孩,用一行行代码走到了硅谷的对面——而且他不打算停下来。
DeepSeek的故事是「AI之巅」系列里最独特的——它不讲理想主义,不讲帝国野心,也不讲安全使命。它讲的是一道数学题:在资源被封锁的情况下,你用智慧和效率能走多远。答案似乎比任何人想象的都要远。
下一篇,「AI之巅」系列之Midjourney——11个人的公司,没有融资,年收入3亿美元。他们用图像生成教会了全世界的设计师"换一种方式做梦"。
DeepSeek的启示:算力不是唯一答案
在芯片被封锁的夹缝中,200人用560万美金证明了:真正的壁垒不是GPU的数量,而是数学创新的深度。
数据来源:DeepSeek官方GitHub与博客、AI Wiki(aiwiki.ai)、codersera.com、ofox.ai、36氪、福布斯、胡润、SemiAnalysis、BBC/CNBC报道等公开资料

夜雨聆风