乐于分享
好东西不私藏

AI 人物志(五):梁文锋——从量化交易到 DeepSeek,一个「局外人」如何搅动全球

AI 人物志(五):梁文锋——从量化交易到 DeepSeek,一个「局外人」如何搅动全球

2025 年 1 月 27 日,星期一。美国科技股经历了一场罕见的地震。

英伟达单日暴跌近 17%,市值蒸发约 5890 亿美元,创美股历史上最大单日市值损失纪录。纳斯达克指数跌超 3%。芯片股、AI 概念股集体跳水。硅谷的投资人们一边盯着盘面,一边试图拼凑出一个问题的答案:到底是什么东西,能让整个华尔街如此恐慌?

答案来自中国杭州。一家叫 DeepSeek(深度求索)的公司,发布了一个叫 R1 的大语言模型。它的性能在多项基准测试中接近甚至追平了 OpenAI 的 o1,而训练成本据称不到 600 万美元——不到美国顶级模型训练成本的十分之一。

更让人震惊的是,DeepSeek 把 R1 完全开源了。权重、技术报告、训练细节,一股脑全放了出来。

在这个故事的中心,站着一个在此之前几乎没人听说过的名字:梁文锋。

湛江小镇少年

梁文锋 1985 年出生在广东省湛江市吴川市覃巴镇米朗岭村。这不是一个会出现在旅游攻略里的地方。它是一个典型的广东农村,以种稻米和荔枝为主。

关于他早年的公开信息非常少。没有”少年班”的传说,没有天才儿童的媒体报道。能确认的是,他是一个成绩很好的学生——那种在小镇上考上重点高中的类型。

2002 年,17 岁的梁文锋考上了浙江大学,就读信息与电子工程学系。浙大在杭州,距离湛江一千多公里。对一个广东小镇青年来说,这次北上意味着看到了一个完全不同的世界。

在浙大,他完成了本科和硕士。他的专业方向是电子工程,但在求学期间,他对机器学习和数据产生了浓厚的兴趣。这种兴趣在当时的浙大并不算主流——那会儿的电子工程系,大部分人更关心信号处理、通信系统这些传统方向。

但正是这个”不太主流”的兴趣,改变了他后面所有的人生轨迹。

幻方:用量化交易赚到第一桶金

2015 年,梁文锋和两个浙大同学一起创办了幻方量化(High-Flyer Capital Management)。那时候他 30 岁,在中国量化基金行业里算是年轻面孔。

幻方的核心思路很直接:用机器学习预测金融市场,然后用算法执行交易。这不是什么新鲜概念,全球各地的量化基金都在做类似的事。但幻方有几个不同的地方。

首先,梁文锋本身就是技术出身,不是那种”学金融然后学点编程”的路径,而是从工程和 AI 直接切入金融。他对模型的理解比大多数基金经理都深。

其次,幻方很早就开始大量采购 GPU。2019 年前后,当大多数中国量化基金还在用 CPU 集群跑策略的时候,幻方已经搭建了一个规模不小的 GPU 算力集群。这个决定后来被证明极其关键。

到了 2019 年,幻方已经是中国规模最大、业绩最好的量化基金之一。2021 年巅峰时期,管理资产规模达到约 140 亿美元(近 1000 亿元人民币)。

一个从湛江小镇出来的 36 岁年轻人,在中国金融市场上做到了这个级别。按理说,这个剧本到这里就可以圆满收场了。好好管基金,每年收管理费,过舒坦日子。

但梁文锋显然不这么想。

为什么一个量化基金会去做大模型?

这个问题几乎每一个报道 DeepSeek 的人都会问。一个做量化交易的基金,为什么要跨界去做通用 AI?这中间有什么逻辑?

2024 年 7 月,中国媒体「暗涌 Waves」对梁文锋做了一次深度访谈——这也是他极为罕见的公开长篇采访。在这次访谈中,他给出了自己的解释。

他说,幻方的很多核心成员本来就是 AI 背景。团队在量化领域应用 AI 的过程中,探索了很多场景,最终意识到,大语言模型才是通用人工智能(AGI)的关键路径。2023 年,梁文锋做了一个决定:成立一家独立的公司,就叫 DeepSeek,专门做大模型。

“我们做大模型这件事和量化金融没有直接关系。我们成立了一家独立的公司叫 DeepSeek 来专注这个方向。”

这个选择非常不寻常。中国的 AI 创业者,要么是从大厂出来单干(百度、阿里、腾讯的前员工),要么是从海外回来(斯坦福、MIT 的博士)。一个量化基金的创始人跑来做大模型,在整个中国 AI 圈里几乎是独一份。

但换个角度想,又完全说得通。梁文锋有钱——幻方给了他充足的资金弹药;他有算力——幻方手上本来就有一堆 GPU;他有 AI 人才——幻方的技术团队本身就懂机器学习。资金、算力、人才,做大模型的三要素他都有。他唯一缺的,只是一个下决心的理由。

2023 年,ChatGPT 席卷全球。这个理由出现了。

DeepSeek 的异类之路

DeepSeek 成立于 2023 年,总部在杭州。在中国 AI 公司扎堆北京的行业惯例下,选择杭州本身就是一个信号——他们不想卷进那套圈子文化。

而梁文锋给 DeepSeek 设定的路线,从第一天起就跟国内其他 AI 公司不太一样。

第一,完全开源。DeepSeek 的模型从 V2 开始就完全开放权重。不是那种”开源但限制商用”的半吊子开源,而是真正把训练细节和技术报告都放出来。这在中国 AI 公司里非常罕见——其他家要么闭源,要么附带各种商业限制。

第二,不走融资路线。DeepSeek 的资金主要来自幻方的利润。梁文锋没有去找 VC 融资,也没有引入战略投资者。这意味着他可以完全按照自己的想法做技术决策,不用考虑投资人的短期回报压力。

第三,研究驱动。DeepSeek 的团队规模不大,但研究人员占比极高。他们更像一个研究院而不是一个商业公司。梁文锋在访谈中多次提到,他的目标不是做产品变现,而是追求 AGI。

“过去很多年,中国的大部分公司习惯了别人做技术突破,然后拿过来做应用变现。我觉得这个时代过去了。中国需要有人站到技术前沿,做出真正的创新。”

这段话几乎可以看作梁文锋的宣言。他在说的是:中国 AI 不应该只是美国创新的跟随者和应用者,而应该做原创性的研究。这个定位在国内 AI 圈里相当大胆。

MoE 架构:在资源约束下做出创新

2024 年 5 月,DeepSeek 发布了 DeepSeek-V2。这是一个混合专家(Mixture of Experts,MoE)架构的大模型,总参数量 2360 亿,但每次推理只激活 210 亿参数。

这个设计的精妙之处在于:它用了一种非常聪明的”稀疏激活”机制。模型整体很大,但每次回答问题时只用其中一小部分参数。这大幅降低了推理成本,使得一个性能接近顶尖的模型可以以极低的成本运行。

然后是 2024 年 12 月的 DeepSeek-V3。6710 亿总参数,每次激活 370 亿。训练用了 2048 块 H800 GPU,训练成本 557 万美元。作为对比,Meta 训练 Llama 3.1 405B 用了超过 16000 块 H100,成本至少数亿美元。

这组数字的背后,是一系列工程创新。DeepSeek 团队开发了自定义的通信库 DeepEP、高效的注意力机制 FlashMLA、FP8 精度的矩阵乘法内核 DeepGEMM——后来这些全部开源了。他们不是用”堆资源”的方式来做模型,而是用”堆智慧”。

说白了:在美国对华芯片出口管制的情况下,他们拿到了性能不如 H100 的 H800,然后用更聪明的工程方法,做出了不逊色于美国顶级模型的东西。这个故事的隐喻性太强了,强到连美国的科技媒体都忍不住反复提起。

R1 时刻:全球 AI 的「斯普特尼克」

2025 年 1 月 20 日,DeepSeek 发布了 R1 模型。

R1 是一个推理模型——和 OpenAI 的 o1 是同一类。它的特点是能够在给出回答之前进行”思考”:把复杂问题拆解成多个步骤,逐步推理,最终得出答案。这种”思维链”(Chain of Thought)的方法是 2024 年以来 AI 领域最重要的技术方向之一。

关键数据:R1 在数学(MATH-500)、编程(Codeforces 评分)、科学推理(GPQA Diamond)等基准测试中,成绩接近或等于 OpenAI o1。而它的训练成本——如果算上 V3 基座模型的成本——依然远低于美国同类模型。

然后 DeepSeek 把它完全开源了。MIT 协议,随便用。

接下来发生的事情,前面已经说了。1 月 27 日周一开盘,美国科技股血洗。英伟达暴跌 17%,博通跌 17%,AMD 跌 6%,微软跌超 2%。全球科技市值单日蒸发超过 1 万亿美元。

市场恐慌的逻辑很简单:如果一家中国公司能用不到 600 万美元训练出接近 GPT-4 级别的模型,那”AI 军备竞赛需要烧掉几千亿美元”这个叙事还站得住脚吗?英伟达每年卖上千亿美元的 GPU,是不是被高估了?

当然,后来的分析冷静了很多。600 万美元只是最后一次训练的成本,不含之前的研究、基础设施、人才投入。DeepSeek 的总投入远不止这个数。但叙事一旦形成,数字的精确性就不重要了。DeepSeek 用一种粗暴的方式向全世界证明了一件事:AI 的前沿不只有硅谷。

2025-2026:持续进化

R1 之后,DeepSeek 并没有放慢脚步。

2025 年期间,他们陆续开源了一系列底层基础设施组件:DualPipe(双向流水线并行算法)、3FS(高性能分布式文件系统)、DeepGEMM(FP8 矩阵乘法内核)、FlashMLA(高效注意力内核)、DeepEP(专家并行通信库)。这些不是模型,而是训练和推理大模型所需的基础设施。把它们全部开源,等于把大模型训练的”工业化秘方”公之于众。

2026 年 4 月,DeepSeek 发布了 V4 模型,继续在性能和效率上追赶甚至超越美国同行。

在 GitHub 上,DeepSeek 的开源仓库获得了大量星标,成为全球 AI 开源社区的重要力量。一个中国团队,用开源的方式,在全世界 AI 开发者中赢得了尊重。

为什么是梁文锋?

回头来看,梁文锋的成功有一系列不太能复制的条件。

他有钱,但不依赖融资。幻方量化给了 DeepSeek 充足的自有资金,这让他不用迎合 VC 的短期预期,可以长期投入高风险的基础研究。OpenAI 需要微软的投资,Anthropic 需要 Google 和 Amazon 的投资,而 DeepSeek 只需要梁文锋签字。

他有算力,但被迫创新。美国对华芯片出口管制意味着 DeepSeek 拿不到最好的 GPU。这看起来是劣势,但实际上倒逼他们用更聪明的工程方法——MoE 架构、FP8 训练、高效通信——来弥补硬件上的差距。限制反而成了创新的催化剂。

他是局外人。他没有北京 AI 圈的社交包袱,没有大厂的官僚主义,没有上市公司对季度财报的执念。他可以按照纯粹的研究直觉来做决策。在 AI 这个高度不确定的领域,这种自由度可能比任何资源都珍贵。

他选择了开源。这个选择在商业上看似”傻”,但它帮 DeepSeek 在全球开发者社区中建立了巨大的声誉。当全世界的研究者都在用你的模型、看你的技术报告时,你的影响力远超一家闭源公司。

安静的人,响亮的事

梁文锋最让人印象深刻的大概就是他的安静。在一个人人都在争抢注意力的行业里,他几乎完全沉默。

Sam Altman 在全球巡回演讲, Musk 每天在 Twitter 上发表观点,Demis Hassabis 频繁接受媒体采访。而梁文锋呢?在 R1 震动全球之后,他几乎没有接受过任何西方主流媒体的采访。那次暗涌的深度对话,几乎是他在公开场合说过的最长的一段话。

他在那次访谈中有一段话,现在读起来颇有意味:

“硅谷的人每天都在说我们改变了世界。但如果你真的改变了世界,你不需要每天说。你只需要做出来。”

从一个湛江农村少年,到中国最大的量化基金创始人,再到用一家创业公司震动全球 AI 格局的人。梁文锋的故事里没有辍学的传奇,没有车库创业的神话,也没有名校博士的光环。

它更像是这样一个故事:一个人认准了一个方向,然后用足够长的时间、足够多的资源、和足够纯粹的专注力,把这件事做到了极致。

有时候,改变世界的人确实不需要太多话。