乐于分享
好东西不私藏

Vast Data:AI数据平台的"操作系统"野心,及它如何重塑存储赛道

Vast Data:AI数据平台的"操作系统"野心,及它如何重塑存储赛道

最近在看AI基础设施,看完算力看网络,看完网络,一个绕不开的话题就是存储。恰好,VAST Data在2026年4月搞了个大新闻,新一轮融资直接把估值干到了300亿美金,比2023年的91亿美金翻了三倍多,英伟达还继续跟投。

看了它的资料,我才想明白,它想做的,或者说它正在讲的故事,是成为AI时代的”数据操作系统”。说白了,以前我们买存储,关心的是容量(TB)、速度(IOPS),把它当成一个仓库。但在AI工厂里,数据不是静态存放的,而是要被GPU实时、高并发地调用、处理、回写。如果数据供给跟不上,你买再多再贵的GPU,利用率也上不去,等于一堆法拉利堵在停车场里。VAST Data切入的,正是这个”让法拉利跑起来”的数据调度和供给效率问题。

这篇笔记,聊聊我对VAST Data的理解,以及从它身上,我们能看到国内AI基础设施有哪些值得挖掘的机会。

先总结一下我个人对这家公司以及这个赛道未来两三年的核心判断:

短期看点(1-2年):AI存储的结构性替代。存储在涨价,同时,AI工作负载驱动的”先进换落后”。谁能解决大模型训练和推理中的I/O瓶颈,谁就能吃到最大的增量蛋糕。

中期看点(2-3年):存储和网络进入”补课阶段”。 650 Group预计Tier2云AI基础设施2026年翻倍至1000亿美元,其中网络和外置存储未来CAGR都超过40%。过去两年大家先买GPU,接下来要花钱让GPU跑满。

长期看点(3-5年):AI数据平台的”操作系统”价值。VAST的产品已经从存储扩展到数据库(DataBase)、计算引擎(DataEngine)。如果”统一数据平台”的逻辑走通,天花板远不止存储市场。但这部分不确定性也很大,现在还比较模糊。

1.VAST Data到底解决了什么”痛点”?

要理解VAST的价值,不能只把它看成一个存储硬件盒子。它解决的是AI时代数据处理的几个核心矛盾。

1)GPU很贵,但”饿肚子”的GPU更贵

AI训练动辄成千上万张卡,但如果数据从存储加载到GPU显存的速度跟不上,GPU就得闲着”等米下锅”。这在业内叫”I/O Wall”(输入输出墙)。

VAST的DASE架构(Disaggregated Shared-Everything,解耦共享一切),简单理解就是把计算和存储彻底分开,中间用超高速的NVMe-oF网络连起来,让每个计算节点都能无差别地高速访问所有数据。打个比方,传统架构像是每个人只能从自己面前的书架拿书,DASE架构像是所有人都能同时从一个巨大的共享图书馆高速取书,不用排队、不用协调。

2)训练和推理”两张皮”,数据搬来搬去效率低

训练要高吞吐(一次读很多数据),推理要低延迟、高并发(很多人同时问问题,每次读一点点数据)。传统做法是维护两套系统,数据在中间不断复制、迁移,成本高、效率低。VAST想用一个”单层通用存储”平台同时满足两种需求。

3)推理正在成为”主角”,但传统存储伺候不好

这一点很关键。随着大模型应用普及,推理的负载会远远超过训练。而且推理生成的数据量(对话记录、用户反馈、监控日志)可能比训练数据大好几个数量级。推理对延迟极其敏感——你跟AI聊天,总不能等半天它才回你一句吧。这对存储的随机访问、稳定低时延提出了极高要求,而这恰恰是传统企业存储的弱项。

2.财务和商业模式:为什么它能拿到软件平台的估值?

VAST虽然还没上市,但披露的几个数据已经足够说明问题了:

指标

数据

说明

最新估值

300亿美元

较2023年91亿翻了3倍多

累计订单

40亿美元

大部分来自过去一年,需求加速明显

CARR

>5亿美元

年化经常性收入,说明收入有持续订阅属性

盈利能力

营业利润率、FCF转正

在烧钱的AI infra赛道里很少见

Rule of X

228%

增长率+利润率,远超SaaS行业40%的优秀标准

它能有这么好的表现,核心在于Gemini商业模式:VAST主要卖软件订阅,硬件由Viking、Intel等合作伙伴提供认证硬件。

这种模式的好处很直白:

1.轻资产:不用自己背硬件库存,毛利率更高

2.估值向SaaS看齐:订阅制收入,资本市场愿意给软件公司的倍数

3.避免硬件价格战:把标准化硬件剥离出去,专注有护城河的软件平台

客户方面,VAST已经覆盖了xAI(Colossus集群10万+GPU)、CoreWeave、JPMorgan Chase、美国空军、Cursor、Lowe’s等,从AI原生云到金融到零售到国防,说明它已经跨过了”概念验证”阶段。

3. 市场空间到底有多大?按场景拆一拆

前面说了,VAST的机会在于AI带来的结构性变化。

灼识咨询的数据显示,2024年中国分布式AI存储市场规模约100亿元,预计到2030年增长到631亿元,CAGR高达35.9%。这个增速非常可观。那这100亿是怎么构成的呢?我试着按场景做个拆分:

场景

2024年规模(估算)

2030年规模(估算)

增速特征

核心驱动

对应产品/厂商

训练存储

~50-55亿(50-55%)

~280-320亿

高增长,当前主力

智算中心建设、大模型参数扩大、checkpoint效率

VAST DataStore、中科曙光ParaStor、焱融F9000X

推理存储

~25-30亿(25-30%)

~190-220亿

增速最快

应用爆发、长上下文、Agent工作流、KV Cache外置

VAST DataEngine、星辰天合MeshFusion、焱融YRCache

数据湖/治理

~15-20亿(15-20%)

~95-130亿

慢变量,但价值大

企业AI落地、非结构化数据管理、RAG、合规

VAST DataBase/DataSpace、NetApp AIDE、达梦数据

从这个拆分里,可以看到几个关键结论:

第一,当前的大头还是训练。这是智算中心建设最直接的需求,也是中科曙光等厂商当前的主战场。

第二,推理的增速会最快。未来几年,随着AI应用层百花齐放,推理带来的数据和并发压力会指数级增长。焱融科技的YRCache(KV Cache外置,并发数提升3倍以上)、星辰天合的MeshFusion(扩展记忆体容量支撑长上下文推理)都是冲着这个方向去的。这是最具爆发力的细分方向。

第三,数据治理是”慢变量”,但价值巨大。NetApp有个数据说,他们拿到的AI项目里,60%是用于数据湖现代化的。说白了,很多企业在真正搞AI之前,得先把自己家里乱七八糟的数据整理干净。这块需求会随着企业AI部署的深入而持续释放。达梦数据、海量数据这些数据库公司切的就是这个方向。

再从全球视角补一个数据:650 Group预计Tier2云AI基础设施中,2025年外置存储仅占7%,但未来CAGR超过40%。这说明AI集群建设的第一阶段是先买算力,第二阶段补存储和网络。VAST所在的赛道,不是跟着企业存储大盘走,而是在吃AI capex结构迁移的红利。

4. A股有哪些可以对标的公司?投资排序和风险

坦白说,A股目前没有一个能和VAST 100%对标的公司。VAST的路径太独特了——软件订阅+解耦硬件+统一AI数据平台。但我们可以从不同维度去寻找”映射”标的。

第一梯队:AI存储/数据平台核心玩家(高纯度,高弹性,但未上市)

这个梯队的公司业务和VAST最像,但目前都还没上市,主要在一级市场。

1. 星辰天合(XSKY)——最像”VAST中国版”

2026年1月向港交所递交招股书。2024年国内分布式AI存储市场份额10.4%,排名第二,仅次于华为,是最大的独立分布式AI存储解决方案供应商

指标

数据

2024年收入

1.72亿元(+3.4%)

2025前三季度收入

1.95亿元(+65.4%)

毛利率

63.7%(2024-2025稳定)

2025前三季度净利润

811万元(扭亏为盈)

它的产品AIMesh和VAST的产品理念高度相似:MeshFS对标训练、MeshFusion对标推理、MeshSpace对标数据管理。如果从”平台化路径”看,这是国内最值得重点研究的公司。

2.焱融科技——推理存储最有想法

2026年完成近亿元C轮融资。它的YRCache产品专门解决大模型推理中的KV Cache存储问题,号称能把并发数提升3倍以上。客户里有智谱、小米汽车、文远知行这些明星公司。2025年订单增长超过100%。

第二梯队:AI基础设施综合龙头(确定性高,纯度稍弱)

这个梯队是A股上市公司,体量大,确定性高,但存储/数据平台只是其业务的一部分。

1. 中科曙光(603019.SH)——A股最核心的映射标的 

指标

数据

2025年营收

149.64亿元(+13.8%)

2025年归母净利润

21.76亿元(+13.9%)

当前市值

1357亿元

PE(TTM)

61倍

为什么它是最核心的映射?几个硬数据:

赛迪顾问数据:AI存储连续两年位列市场第一,分布式存储领导者象限

全国14所国家级大集群中,超过2/3采用曙光部署方案

集中式全闪FlashNexus以32控、超3000万IOPS登顶全球榜首

收入拆分来看,2025年IT设备(服务器+存储)收入125亿,同比+6.8%;但软件和技术服务收入24.46亿,同比暴增75.3%,毛利率47.25%。这说明它也在往”软”的方向转型,和VAST的方向是一致的。

2.浪潮信息(000977.SZ)——AI服务器龙头,存储是配套

指标

数据

2025年营收

1647.82亿元(+43.3%)

2025年归母净利润

24.13亿元(+5.2%)

当前市值

1099亿元

PE(TTM)

45.6倍

浪潮的核心优势在整机交付和互联网大客户绑定,产品中包含存储类、交换类产品。 但它更多吃的是AI服务器出货量爆发的红利,存储/数据平台不是核心估值锚。如果未来行业从”堆GPU节点”转向”优化GPU利用率”,浪潮有切入数据层的可能,但目前还不是。

3. 紫光股份(000938.SZ)——网络+计算+存储综合平台

指标

数据

2025年营收

967.48亿元(+22.4%)

2025年归母净利润

16.86亿元(+7.2%)

当前市值

896亿元

PE(TTM)

53.1倍

紫光覆盖服务器、网络设备、分布式存储、云操作系统,更受益于政企AI数据中心整网改造和私有云/混合云升级。

第三梯队:转型玩家与”反向映射”标的(提供不同视角,赔率更高但风险也更大)

这个梯队最有意思。它们不是从存储切入的,而是从数据库、数据服务等方向,走了和VAST相反的路径,但终点可能殊途同归。

1.达梦数据(688692.SH)——最值得关注的”反向映射” 

指标

数据

2025年营收

13.06亿元(+25.0%)

2025年归母净利润

5.17亿元(+42.8%)

2026Q1营收

4.11亿元(+59.1%)

当前市值

280.6亿元

PE(TTM)

54.3倍

毛利率

约96%(营业成本仅占营收3.9%)

为什么说它是”反向映射”?

VAST的路径是”存储 → 数据库 → AI平台”,自下而上扩张。达梦正在走的路径是“数据库 → AI原生 → 存储层”,自上而下渗透。

达梦最近的动作很密集:向量数据库能力已完成(关系库原生支持向量格式,支持联合检索);Agent化数据库(原生支持与AI Agent交互);软件定义存储&一体机(数据库能力下沉到存储层)。它甚至喊出了”替代Oracle Exdata一体机,替代空间达百亿”的口号。

说白了,VAST从下往上爬,达梦从上往下钻,两条路最终会在”AI数据平台”这个交汇点相遇。达梦的优势在于极高的毛利率(96%)和纯软件基因,劣势在于存储层的工程能力还需要验证。

2.海量数据(603138.SH)——数据库切入AI Infra,体量小但方向对

指标

数据

2025年营收

5.12亿元(+37.5%)

2025年归母净利润

-4723万元(连续两年减亏)

2024年数据库自主产品收入

1.40亿元(占比37.6%),毛利率74.1%

当前市值

57.2亿元

和达梦类似,海量数据也从数据库切入AI Infra。核心产品Vastbase在做AI原生升级,卡位Agent数据智能方向(Agentic Data)。相比达梦,它体量更小,目前还在亏损,但高毛利的数据库自主产品收入占比在快速提升(从37.6%预计到2027年66.9%)。券商预测2026年有望扭亏。

3. 同有科技(300302.SZ)——A股唯一纯存储标的,但要非常谨慎

指标

数据

2024年营收

3.65亿元(+3.9%)

2024年归母净利润

-2.81亿元(含2.61亿资产减值)

当前市值

111.5亿元

PS

28.7倍

把它列在这里,是因为它确实是A股”唯一”主营业务是存储的上市公司。但说实话,我个人对它比较谨慎。年营收不到4亿,还在亏损,PS却高达28倍。 这种标的,概念属性可能大于基本面,需要非常小心。

5.竞争格局:VAST和它的对手们

简单梳理一下全球竞争格局,帮助理解国内映射的定位:

公司

定位

相对VAST的特点

一句话评价

VAST Data

AI统一数据平台

DASE架构+Gemini订阅+NVIDIA深度绑定

赛道定义者,估值最高

Weka

AI/HPC高性能并行文件系统

10PB以下性能更强,但大规模逊色;多租户弱

小规模场景的强手

DDN

HPC/AI并行文件系统老兵

速度仍强但架构偏老

老将面临升级压力

Pure Storage

全闪阵列龙头

FY27营收指引$4.35B,正往hyperscale走

企业存储升级+hyperscale机会

NetApp

智能数据基础设施

AFX+AIDE向AI数据平台转型,300+AI wins

治理和多云是差异化

核心观察:所有人都在从”存储”往”AI数据平台”方向走。VAST的先发优势在于架构设计和NVIDIA绑定,但传统大厂在安全、治理、多云兼容、客户关系上有深厚积累。架构领先不等于商业上一定赢。

6. 未来的几个关键看点

最后,总结一下我个人觉得未来2-3年需要持续跟踪的几个问题:

1. 推理的”杀手级应用”什么时候出现?现在大家都在说推理重要,但真正能引爆推理存储需求的,一定是现象级的AI应用。这个应用出现在C端还是B端?

2.”统一平台”和”最佳单品”谁会赢?VAST赌的是客户愿意为一个统一的数据平台买单。但会不会有客户觉得,我还是喜欢用A家的训练存储、B家的推理引擎、C家的数据治理工具?这种”最佳单品组合”的模式,是VAST的潜在挑战。

3.数据库和存储的边界会不会彻底模糊?达梦和VAST的例子已经预示了这一点。VAST从存储往上做数据库,达梦从数据库往下做存储。未来我们可能很难清晰界定一家公司到底是做数据库的还是做存储的。这种跨界竞争,可能会催生出新的巨头。

4.国内厂商的软件能力能否跟上?国内在硬件上追得很快,但在底层平台软件、生态建设上还有差距。未来竞争的关键,不是谁的盒子性能指标高,而是谁的软件能更好地调度和管理数据,谁的生态更完善

7.最后的判断

总结来看,VAST Data给我最大的启发是:AI正在从根本上重构IT基础设施的价值体系。过去我们认为的那些”后台”、”配套”环节,比如存储,正在因为成为AI性能的瓶颈而走向舞台中央。

用一个简单的公式来理解:

过去两年市场主要在交易第一项(算力规模),现在正在逐步转向后面几项。VAST、星辰天合、焱融科技这类公司解决的,正是后面几项。当GPU贵到一定程度时,数据层每1%的效率提升,都会被放大为可观的资本开支回报

但我也想说,300亿美元的估值已经隐含了很强的平台化成功预期。VAST能不能从”高性能存储公司”真正跨到”AI操作系统”,这件事现在还没有完全跑通。所以我的结论比较克制:

VAST很值得研究,但现在最确定的机会,不一定是押注”谁会成为AI操作系统”,而更可能是先找到那些已经在训练、推理、数据治理几个环节中明确受益的公司。

以上仅作为研究参考,不作为投资依据。