AI 人物志(五):梁文锋——从量化交易到 DeepSeek,一个「局外人」如何搅动全球-夜雨聆风

AI 人物志(五):梁文锋——从量化交易到 DeepSeek,一个「局外人」如何搅动全球

2025 年 1 月 27 日，星期一。美国科技股经历了一场罕见的地震。

英伟达单日暴跌近 17%，市值蒸发约 5890 亿美元，创美股历史上最大单日市值损失纪录。纳斯达克指数跌超 3%。芯片股、AI 概念股集体跳水。硅谷的投资人们一边盯着盘面，一边试图拼凑出一个问题的答案：到底是什么东西，能让整个华尔街如此恐慌？

答案来自中国杭州。一家叫 DeepSeek（深度求索）的公司，发布了一个叫 R1 的大语言模型。它的性能在多项基准测试中接近甚至追平了 OpenAI 的 o1，而训练成本据称不到 600 万美元——不到美国顶级模型训练成本的十分之一。

更让人震惊的是，DeepSeek 把 R1 完全开源了。权重、技术报告、训练细节，一股脑全放了出来。

在这个故事的中心，站着一个在此之前几乎没人听说过的名字：梁文锋。

湛江小镇少年

梁文锋 1985 年出生在广东省湛江市吴川市覃巴镇米朗岭村。这不是一个会出现在旅游攻略里的地方。它是一个典型的广东农村，以种稻米和荔枝为主。

关于他早年的公开信息非常少。没有”少年班”的传说，没有天才儿童的媒体报道。能确认的是，他是一个成绩很好的学生——那种在小镇上考上重点高中的类型。

2002 年，17 岁的梁文锋考上了浙江大学，就读信息与电子工程学系。浙大在杭州，距离湛江一千多公里。对一个广东小镇青年来说，这次北上意味着看到了一个完全不同的世界。

在浙大，他完成了本科和硕士。他的专业方向是电子工程，但在求学期间，他对机器学习和数据产生了浓厚的兴趣。这种兴趣在当时的浙大并不算主流——那会儿的电子工程系，大部分人更关心信号处理、通信系统这些传统方向。

但正是这个”不太主流”的兴趣，改变了他后面所有的人生轨迹。

幻方：用量化交易赚到第一桶金

2015 年，梁文锋和两个浙大同学一起创办了幻方量化（High-Flyer Capital Management）。那时候他 30 岁，在中国量化基金行业里算是年轻面孔。

幻方的核心思路很直接：用机器学习预测金融市场，然后用算法执行交易。这不是什么新鲜概念，全球各地的量化基金都在做类似的事。但幻方有几个不同的地方。

首先，梁文锋本身就是技术出身，不是那种”学金融然后学点编程”的路径，而是从工程和 AI 直接切入金融。他对模型的理解比大多数基金经理都深。

其次，幻方很早就开始大量采购 GPU。2019 年前后，当大多数中国量化基金还在用 CPU 集群跑策略的时候，幻方已经搭建了一个规模不小的 GPU 算力集群。这个决定后来被证明极其关键。

到了 2019 年，幻方已经是中国规模最大、业绩最好的量化基金之一。2021 年巅峰时期，管理资产规模达到约 140 亿美元（近 1000 亿元人民币）。

一个从湛江小镇出来的 36 岁年轻人，在中国金融市场上做到了这个级别。按理说，这个剧本到这里就可以圆满收场了。好好管基金，每年收管理费，过舒坦日子。

但梁文锋显然不这么想。

为什么一个量化基金会去做大模型？

这个问题几乎每一个报道 DeepSeek 的人都会问。一个做量化交易的基金，为什么要跨界去做通用 AI？这中间有什么逻辑？

2024 年 7 月，中国媒体「暗涌 Waves」对梁文锋做了一次深度访谈——这也是他极为罕见的公开长篇采访。在这次访谈中，他给出了自己的解释。

他说，幻方的很多核心成员本来就是 AI 背景。团队在量化领域应用 AI 的过程中，探索了很多场景，最终意识到，大语言模型才是通用人工智能（AGI）的关键路径。2023 年，梁文锋做了一个决定：成立一家独立的公司，就叫 DeepSeek，专门做大模型。

“我们做大模型这件事和量化金融没有直接关系。我们成立了一家独立的公司叫 DeepSeek 来专注这个方向。”

这个选择非常不寻常。中国的 AI 创业者，要么是从大厂出来单干（百度、阿里、腾讯的前员工），要么是从海外回来（斯坦福、MIT 的博士）。一个量化基金的创始人跑来做大模型，在整个中国 AI 圈里几乎是独一份。

但换个角度想，又完全说得通。梁文锋有钱——幻方给了他充足的资金弹药；他有算力——幻方手上本来就有一堆 GPU；他有 AI 人才——幻方的技术团队本身就懂机器学习。资金、算力、人才，做大模型的三要素他都有。他唯一缺的，只是一个下决心的理由。

2023 年，ChatGPT 席卷全球。这个理由出现了。

DeepSeek 的异类之路

DeepSeek 成立于 2023 年，总部在杭州。在中国 AI 公司扎堆北京的行业惯例下，选择杭州本身就是一个信号——他们不想卷进那套圈子文化。

而梁文锋给 DeepSeek 设定的路线，从第一天起就跟国内其他 AI 公司不太一样。

第一，完全开源。DeepSeek 的模型从 V2 开始就完全开放权重。不是那种”开源但限制商用”的半吊子开源，而是真正把训练细节和技术报告都放出来。这在中国 AI 公司里非常罕见——其他家要么闭源，要么附带各种商业限制。

第二，不走融资路线。DeepSeek 的资金主要来自幻方的利润。梁文锋没有去找 VC 融资，也没有引入战略投资者。这意味着他可以完全按照自己的想法做技术决策，不用考虑投资人的短期回报压力。

第三，研究驱动。DeepSeek 的团队规模不大，但研究人员占比极高。他们更像一个研究院而不是一个商业公司。梁文锋在访谈中多次提到，他的目标不是做产品变现，而是追求 AGI。

“过去很多年，中国的大部分公司习惯了别人做技术突破，然后拿过来做应用变现。我觉得这个时代过去了。中国需要有人站到技术前沿，做出真正的创新。”

这段话几乎可以看作梁文锋的宣言。他在说的是：中国 AI 不应该只是美国创新的跟随者和应用者，而应该做原创性的研究。这个定位在国内 AI 圈里相当大胆。

MoE 架构：在资源约束下做出创新

2024 年 5 月，DeepSeek 发布了 DeepSeek-V2。这是一个混合专家（Mixture of Experts，MoE）架构的大模型，总参数量 2360 亿，但每次推理只激活 210 亿参数。

这个设计的精妙之处在于：它用了一种非常聪明的”稀疏激活”机制。模型整体很大，但每次回答问题时只用其中一小部分参数。这大幅降低了推理成本，使得一个性能接近顶尖的模型可以以极低的成本运行。

然后是 2024 年 12 月的 DeepSeek-V3。6710 亿总参数，每次激活 370 亿。训练用了 2048 块 H800 GPU，训练成本 557 万美元。作为对比，Meta 训练 Llama 3.1 405B 用了超过 16000 块 H100，成本至少数亿美元。

这组数字的背后，是一系列工程创新。DeepSeek 团队开发了自定义的通信库 DeepEP、高效的注意力机制 FlashMLA、FP8 精度的矩阵乘法内核 DeepGEMM——后来这些全部开源了。他们不是用”堆资源”的方式来做模型，而是用”堆智慧”。

说白了：在美国对华芯片出口管制的情况下，他们拿到了性能不如 H100 的 H800，然后用更聪明的工程方法，做出了不逊色于美国顶级模型的东西。这个故事的隐喻性太强了，强到连美国的科技媒体都忍不住反复提起。

R1 时刻：全球 AI 的「斯普特尼克」

2025 年 1 月 20 日，DeepSeek 发布了 R1 模型。

R1 是一个推理模型——和 OpenAI 的 o1 是同一类。它的特点是能够在给出回答之前进行”思考”：把复杂问题拆解成多个步骤，逐步推理，最终得出答案。这种”思维链”（Chain of Thought）的方法是 2024 年以来 AI 领域最重要的技术方向之一。

关键数据：R1 在数学（MATH-500）、编程（Codeforces 评分）、科学推理（GPQA Diamond）等基准测试中，成绩接近或等于 OpenAI o1。而它的训练成本——如果算上 V3 基座模型的成本——依然远低于美国同类模型。

然后 DeepSeek 把它完全开源了。MIT 协议，随便用。

接下来发生的事情，前面已经说了。1 月 27 日周一开盘，美国科技股血洗。英伟达暴跌 17%，博通跌 17%，AMD 跌 6%，微软跌超 2%。全球科技市值单日蒸发超过 1 万亿美元。

市场恐慌的逻辑很简单：如果一家中国公司能用不到 600 万美元训练出接近 GPT-4 级别的模型，那”AI 军备竞赛需要烧掉几千亿美元”这个叙事还站得住脚吗？英伟达每年卖上千亿美元的 GPU，是不是被高估了？

当然，后来的分析冷静了很多。600 万美元只是最后一次训练的成本，不含之前的研究、基础设施、人才投入。DeepSeek 的总投入远不止这个数。但叙事一旦形成，数字的精确性就不重要了。DeepSeek 用一种粗暴的方式向全世界证明了一件事：AI 的前沿不只有硅谷。

2025-2026：持续进化

R1 之后，DeepSeek 并没有放慢脚步。

2025 年期间，他们陆续开源了一系列底层基础设施组件：DualPipe（双向流水线并行算法）、3FS（高性能分布式文件系统）、DeepGEMM（FP8 矩阵乘法内核）、FlashMLA（高效注意力内核）、DeepEP（专家并行通信库）。这些不是模型，而是训练和推理大模型所需的基础设施。把它们全部开源，等于把大模型训练的”工业化秘方”公之于众。

2026 年 4 月，DeepSeek 发布了 V4 模型，继续在性能和效率上追赶甚至超越美国同行。

在 GitHub 上，DeepSeek 的开源仓库获得了大量星标，成为全球 AI 开源社区的重要力量。一个中国团队，用开源的方式，在全世界 AI 开发者中赢得了尊重。

为什么是梁文锋？

回头来看，梁文锋的成功有一系列不太能复制的条件。

他有钱，但不依赖融资。幻方量化给了 DeepSeek 充足的自有资金，这让他不用迎合 VC 的短期预期，可以长期投入高风险的基础研究。OpenAI 需要微软的投资，Anthropic 需要 Google 和 Amazon 的投资，而 DeepSeek 只需要梁文锋签字。

他有算力，但被迫创新。美国对华芯片出口管制意味着 DeepSeek 拿不到最好的 GPU。这看起来是劣势，但实际上倒逼他们用更聪明的工程方法——MoE 架构、FP8 训练、高效通信——来弥补硬件上的差距。限制反而成了创新的催化剂。

他是局外人。他没有北京 AI 圈的社交包袱，没有大厂的官僚主义，没有上市公司对季度财报的执念。他可以按照纯粹的研究直觉来做决策。在 AI 这个高度不确定的领域，这种自由度可能比任何资源都珍贵。

他选择了开源。这个选择在商业上看似”傻”，但它帮 DeepSeek 在全球开发者社区中建立了巨大的声誉。当全世界的研究者都在用你的模型、看你的技术报告时，你的影响力远超一家闭源公司。

安静的人，响亮的事

梁文锋最让人印象深刻的大概就是他的安静。在一个人人都在争抢注意力的行业里，他几乎完全沉默。

Sam Altman 在全球巡回演讲， Musk 每天在 Twitter 上发表观点，Demis Hassabis 频繁接受媒体采访。而梁文锋呢？在 R1 震动全球之后，他几乎没有接受过任何西方主流媒体的采访。那次暗涌的深度对话，几乎是他在公开场合说过的最长的一段话。

他在那次访谈中有一段话，现在读起来颇有意味：

“硅谷的人每天都在说我们改变了世界。但如果你真的改变了世界，你不需要每天说。你只需要做出来。”

从一个湛江农村少年，到中国最大的量化基金创始人，再到用一家创业公司震动全球 AI 格局的人。梁文锋的故事里没有辍学的传奇，没有车库创业的神话，也没有名校博士的光环。

它更像是这样一个故事：一个人认准了一个方向，然后用足够长的时间、足够多的资源、和足够纯粹的专注力，把这件事做到了极致。

有时候，改变世界的人确实不需要太多话。