上次我们讲到RL,它解决的是大模型“如何不断变得更好”的问题。但如果再往下看,还有一个更底层的问题:
👉 这些强大的AI能力,是建立在什么之上的?
这就引出了今天的主题——AI Infra。
AI Infra,是Artificial Intelligence Infrastructure的缩写,中文一般叫做“AI基础设施”。
那么,什么是AI基础设施?
可以这样理解:
AI Infra,就是支撑大模型运行和发展的底层系统。
如果把大模型看作“应用”,那么AI Infra就是:
👉 让这些应用能够存在的“地基”
我们可以用一个更直观的类比:
在互联网时代:
App是你看到的产品
而服务器、云计算、网络,是背后的基础设施
你平时不会直接接触它们,但:
👉 一旦没有它们,一切都无法运行
AI时代也是一样。
我们每天在使用的:
对话模型
图像生成
智能助手
背后都依赖一整套AI Infra在支撑。
那AI Infra具体包括什么?
可以简单分为三层:
第一层:算力(Compute)
👉 GPU、算力集群、数据中心
这是最基础的资源,相当于“电力”
第二层:数据与存储(Data)
👉 数据集、数据清洗、数据管理
没有数据,就没有模型
第三层:模型与框架(Model & Framework)
👉 训练框架、推理引擎、模型部署系统
比如你常听到的各种训练/推理系统
也就是说:
AI Infra,不是一个东西,而是一整套支撑系统
为什么现在AI Infra这么重要?
因为大模型的发展,正在遇到一个核心瓶颈:
👉 成本
训练一次模型,可能需要数千万甚至上亿美元
推理一次请求,也在持续消耗算力
所以现在的竞争,已经不只是:
👉 谁模型更强
而是:
👉 谁能更高效、更低成本地运行模型
如果说:
Token是“计费单位”
Embedding是“理解方式”
Prompt是“交互方式”
RAG是“知识获取”
Agent是“任务执行”
RL是“优化方式”
那么AI Infra解决的就是:
👉 这一切“能不能规模化运行”
在互联网时代,我们拼的是“流量”;
而在AI时代,我们开始拼的是:
👉 算力 + 数据 + 系统能力
一句话总结:
AI Infra,就是让大模型从“能用”,走向“用得起、用得广”的基础。
关注我,每天一个什么是。
夜雨聆风