AI训练到底用哪种存储?一文说清楚
做AI训练,存什么数据、用什么存储,是个很基本但很少有人讲清楚的问题。
今天简单梳理一下目前最常用的几种存储类型。
一、并行文件存储( PFS)
这是AI训练最核心的存储类型。
PFS(Parallel File System)的核心思路是:把一个文件拆成很多块,同时写入多台存储节点。几百台训练服务器同时读数据,带宽可以做到几百GB每秒。
常见实现有三种:
· GPFS(IBM Spectrum Scale):老牌劲旅,政企客户用得多,稳定但贵。
· Lustre:开源扛把子,超算中心标配,HPC圈事实标准。
· BeeGFS:轻量易部署,这几年在AI训练场景里追得很快。
简单说:训练大模型,PFS是刚需,没有它就谈不上大规模分布式训练。
二、对象存储
对象存储的核心不是快,是省。
数据存进去,给一个唯一ID,通过API读取,不用管底层文件目录结构。AWS S3、国内阿里云OSS、MinIO都是这类。
优点:便宜、容量大、接口统一。缺点:延迟高、并发差,拿来做训练不合适,但非常适合做数据湖——把清洗好的训练数据存在对象存储里,训练时再拉到PFS上。
可以理解为:对象存储是仓库,PFS是工作台。
三、块存储与文件存储
这是两种更”传统”的存储形态,在AI场景里做辅助。
块存储(Block Storage):直接给一块裸磁盘,读写极快,延迟最低。一般用于数据库或者需要低延迟读写的场景。
文件存储(File Storage):就是NFS、NAS这种,有目录结构,使用简单,但并发性能差。大模型训练基本不会用它做主力存储。
一张图说清楚
对象存储 → 仓库,便宜海量,存数据
PFS并行文件存储 → 工作台,极快高并发,训练用
块存储 → 极致低延迟,数据库用
文件存储 → 简单易用,小场景用
总结
AI大模型训练的存储分工很明确:对象存储管数据,PFS管训练,块存储管数据库。
搞清楚这三种存储的定位,就已经比大多数人了。
夜雨聆风