乐于分享
好东西不私藏

AI训练到底用哪种存储?一文说清楚

AI训练到底用哪种存储?一文说清楚

做AI训练,存什么数据、用什么存储,是个很基本但很少有人讲清楚的问题。

今天简单梳理一下目前最常用的几种存储类型。

一、并行文件存储( PFS)

这是AI训练最核心的存储类型。

PFS(Parallel File System)的核心思路是:把一个文件拆成很多块,同时写入多台存储节点。几百台训练服务器同时读数据,带宽可以做到几百GB每秒。

常见实现有三种:

· GPFS(IBM Spectrum Scale):老牌劲旅,政企客户用得多,稳定但贵。

· Lustre:开源扛把子,超算中心标配,HPC圈事实标准。

· BeeGFS:轻量易部署,这几年在AI训练场景里追得很快。

简单说:训练大模型,PFS是刚需,没有它就谈不上大规模分布式训练。

二、对象存储

对象存储的核心不是快,是省。

数据存进去,给一个唯一ID,通过API读取,不用管底层文件目录结构。AWS S3、国内阿里云OSS、MinIO都是这类。

优点:便宜、容量大、接口统一。缺点:延迟高、并发差,拿来做训练不合适,但非常适合做数据湖——把清洗好的训练数据存在对象存储里,训练时再拉到PFS上。

可以理解为:对象存储是仓库,PFS是工作台。

三、块存储与文件存储

这是两种更”传统”的存储形态,在AI场景里做辅助。

块存储(Block Storage):直接给一块裸磁盘,读写极快,延迟最低。一般用于数据库或者需要低延迟读写的场景。

文件存储(File Storage):就是NFS、NAS这种,有目录结构,使用简单,但并发性能差。大模型训练基本不会用它做主力存储。

一张图说清楚

对象存储 → 仓库,便宜海量,存数据

PFS并行文件存储 → 工作台,极快高并发,训练用

块存储 → 极致低延迟,数据库用

文件存储 → 简单易用,小场景用

总结

AI大模型训练的存储分工很明确:对象存储管数据,PFS管训练,块存储管数据库。

搞清楚这三种存储的定位,就已经比大多数人了。